0% menganggap dokumen ini bermanfaat (0 suara)

46 tayangan6 halaman

Task10 - Bagus Arimanu - Ipynb - Colaboratory

Dokumen tersebut merangkum kode Python untuk melakukan analisis data menggunakan algoritma K-Nearest Neighbors dalam masalah klasifikasi. Kode tersebut meliputi impor library, membaca data, visualisasi data, pemisahan atribut dan label, pemodelan, dan evaluasi model.

Diunggah oleh

bagus arimanu

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

46 tayangan6 halaman

Task10 - Bagus Arimanu - Ipynb - Colaboratory

Diunggah oleh

bagus arimanu

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 6

5/7/23, 9:31 PM Task10_Bagus Arimanu.

ipynb - Colaboratory

Individual task 10
I Made Bagus Arimanu Dwipayana (24) | [email protected]

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

Kode di atas merupakan impor library dan modul yang diperlukan untuk melakukan analisis data menggunakan algoritma K-Nearest Neighbors
(KNN) dalam masalah klasifikasi. Berikut adalah penjelasan singkat mengenai setiap baris kode tersebut:

import pandas as pd: Mengimpor library pandas yang digunakan untuk manipulasi dan analisis data.
import numpy as np: Mengimpor library numpy yang digunakan untuk operasi numerik pada data.
import seaborn as sns: Mengimpor library seaborn yang digunakan untuk visualisasi data.
import matplotlib.pyplot as plt: Mengimpor modul pyplot dari library matplotlib yang digunakan untuk visualisasi data.
from sklearn.model_selection import train_test_split: Mengimpor fungsi train_test_split dari modul model_selection dalam library scikit-
learn (sklearn). Fungsi ini digunakan untuk membagi data menjadi subset pelatihan dan uji.
from sklearn.neighbors import KNeighborsClassifier: Mengimpor kelas KNeighborsClassifier dari modul neighbors dalam library scikit-
learn. Kelas ini digunakan untuk menerapkan algoritma K-Nearest Neighbors.
from sklearn.metrics import accuracy_score: Mengimpor fungsi accuracy_score dari modul metrics dalam library scikit-learn. Fungsi ini
digunakan untuk mengukur akurasi model klasifikasi.

Dengan mengimpor library dan modul tersebut, Anda dapat menggunakan fungsi dan kelas yang diperlukan untuk melakukan analisis data
menggunakan algoritma K-Nearest Neighbors (KNN) dalam masalah klasifikasi.

# membaca dataset diabetes.csv

data = pd.read_csv('diabetes.csv')

Kode tersebut melakukan membaca file CSV dengan nama 'diabetes.csv' menggunakan fungsi read_csv dari library pandas. File CSV yang
dibaca diharapkan berisi data terkait diabetes.

Setelah file CSV berhasil dibaca, data dari file tersebut dimuat ke dalam sebuah DataFrame yang disimpan dalam variabel data. DataFrame
adalah struktur data dua dimensi yang disediakan oleh library pandas untuk memanipulasi dan menganalisis data tabular.

Dengan menggunakan kode pd.read_csv('diabetes.csv'), file CSV akan dibaca dan diinterpretasikan sebagai DataFrame. Data tersebut dapat
digunakan untuk melakukan analisis lebih lanjut, seperti eksplorasi data, pemrosesan data, atau melatih model machine learning.

# menampilkan 10 data teratas dari dataset

data.head(10)

Pregnancies Glucose BloodPressure SkinThickness Insulin BMI DiabetesPedigreeFunction Age Out

0 6 148 72 35 0 33.6 0.627 50

1 1 85 66 29 0 26.6 0.351 31

2 8 183 64 0 0 23.3 0.672 32

3 1 89 66 23 94 28.1 0.167 21

4 0 137 40 35 168 43.1 2.288 33

5 5 116 74 0 0 25.6 0.201 30

6 3 78 50 32 88 31.0 0.248 26

7 10 115 0 0 0 35.3 0.134 29

8 2 197 70 45 543 30.5 0.158 53

9 8 125 96 0 0 0.0 0.232 54

Kode data.head(10) digunakan untuk menampilkan 10 baris pertama dari DataFrame data. Fungsi head() pada objek DataFrame digunakan
untuk mengambil sejumlah baris teratas dari data.

Dengan menggunakan kode tersebut, Anda akan melihat 10 baris pertama dari data yang ada dalam DataFrame data. Hal ini berguna untuk
memberikan gambaran awal tentang struktur dan konten dari data tersebut

https://colab.research.google.com/drive/12Gb7rO_8zHp-OD5qpD7omP81HZEL-Muk#scrollTo=_bfoR2r9QsRn&printMode=true 1/6
5/7/23, 9:31 PM Task10_Bagus Arimanu.ipynb - Colaboratory
# melihat jumlah data pa da setiap kelas Outcome
print(data['Outcome'].value_counts())

0 500
1 268
Name: Outcome, dtype: int64

Kode print(data['Outcome'].value_counts()) digunakan untuk menghitung jumlah kemunculan setiap nilai dalam kolom 'Outcome' pada
DataFrame data dan menampilkannya. Kolom 'Outcome' umumnya digunakan dalam dataset diabetes untuk menunjukkan apakah seseorang
memiliki diabetes atau tidak.

Fungsi value_counts() pada objek Series (yaitu kolom 'Outcome') akan menghitung jumlah kemunculan setiap nilai dalam kolom tersebut.
Hasilnya akan ditampilkan dalam format yang memperlihatkan nilai unik dari 'Outcome' beserta jumlah kemunculannya.

Dengan menggunakan kode tersebut, Anda akan melihat jumlah pasien dengan diabetes dan tanpa diabetes dalam dataset data, memberikan
pemahaman awal tentang distribusi kelas pada data tersebut.

# menampilkan grafik distribusi pada setiap atribut

sns.set_style('whitegrid')
data.hist(figsize=(10,10), color='BROWN')
plt.show()

Kode yang diberikan memiliki beberapa tujuan:

sns.set_style('whitegrid'): Baris ini mengatur gaya plot menjadi 'whitegrid'. Ini berarti akan ada garis-garis grid yang terlihat di latar belakang
plot, memberikan tampilan yang lebih terstruktur.

data.hist(figsize=(10,10), color='BROWN'): Kode ini menampilkan histogram dari setiap atribut dalam DataFrame data. Fungsi hist() digunakan
untuk menghasilkan histogram. Argumen figsize=(10,10) mengatur ukuran plot menjadi 10x10 inci, sehingga plot histogram lebih besar dan
lebih jelas. Argumen color='BROWN' mengatur warna histogram menjadi cokelat.

plt.show(): Baris ini digunakan untuk menampilkan plot histogram yang telah dibuat sebelumnya. Fungsi show() dari pyplot (dalam library
matplotlib) digunakan untuk menampilkan plot yang sedang aktif.

https://colab.research.google.com/drive/12Gb7rO_8zHp-OD5qpD7omP81HZEL-Muk#scrollTo=_bfoR2r9QsRn&printMode=true 2/6
5/7/23, 9:31 PM Task10_Bagus Arimanu.ipynb - Colaboratory

Dengan menggunakan kode tersebut, histogram untuk setiap atribut dalam dataset akan ditampilkan dalam grid putih dengan ukuran plot yang
disesuaikan. Hal ini memungkinkan Anda untuk melihat distribusi data pada setiap atribut dan mendapatkan wawasan tentang karakteristik
dataset tersebut.

mencoba membuat grafik distribusi dengan gaya yang berbeda

for column in data.columns:

plt.figure(figsize=(4, 2))
sns.histplot(data[column], kde=True)
plt.title('Distribusi {}'.format(column))
plt.xlabel(column)
plt.ylabel('Frekuensi')
plt.show()

https://colab.research.google.com/drive/12Gb7rO_8zHp-OD5qpD7omP81HZEL-Muk#scrollTo=_bfoR2r9QsRn&printMode=true 3/6
5/7/23, 9:31 PM Task10_Bagus Arimanu.ipynb - Colaboratory

# memisahkan atribut dan label

X = data.drop('Outcome', axis=1)
y = data['Outcome']

kode ini memiliki tujuan untuk melatih model K-Nearest Neighbors (KNN) untuk memprediksi kelas 'Outcome' pada dataset yang diberikan.
Kode ini memisahkan atribut dari label dalam dataset. Variabel X akan berisi atribut-atribut yang digunakan untuk melatih model, sedangkan
variabel y akan berisi label yang ingin diprediksi

# membagi data menjadi train dan test set

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

Kode ini menggunakan train_test_split() dari library sklearn.model_selection untuk membagi dataset menjadi data latih (train set) dan data uji
(test set). Data test set akan terdiri dari 20% dari keseluruhan dataset, sedangkan data train set akan terdiri dari 80% dari keseluruhan dataset.
Argumen random_state=0 digunakan untuk menjaga konsistensi pembagian data yang sama setiap kali kode dijalankan.

# membuat model KNN dan melatihnya pada data train set

model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)

▾ KNeighborsClassifier
KNeighborsClassifier()

Kode ini membuat objek model KNN dengan menggunakan KNeighborsClassifier() dari library sklearn.neighbors. Argumen n_neighbors=5
mengatur jumlah tetangga terdekat yang akan digunakan dalam proses prediksi. Model kemudian dilatih pada data train set menggunakan

https://colab.research.google.com/drive/12Gb7rO_8zHp-OD5qpD7omP81HZEL-Muk#scrollTo=_bfoR2r9QsRn&printMode=true 4/6
5/7/23, 9:31 PM Task10_Bagus Arimanu.ipynb - Colaboratory

metode fit() dengan atribut X_train dan label y_train.

# melakukan prediksi pada data test set

y_pred = model.predict(X_test)

Kode ini menggunakan model yang telah dilatih untuk melakukan prediksi pada data test set dengan menggunakan metode predict(). Hasil
prediksi akan disimpan dalam variabel y_pred.

# menghitung akurasi dari model

accuracy = accuracy_score(y_test, y_pred)
print('Accuracy: {:.2f}%'.format(accuracy*100))

Accuracy: 75.32%

Kode ini menghitung akurasi model menggunakan metode accuracy_score() dari library sklearn.metrics. Akurasi dihitung dengan
membandingkan label sebenarnya (y_test) dengan hasil prediksi (y_pred). Hasil akurasi akan dicetak ke layar dalam bentuk persentase
menggunakan print().

Tingkat akurasi menggambarkan sejauh mana model berhasil memprediksi dengan benar kelas 'Outcome' pada data yang belum pernah dilihat
sebelumnya (data test set). Akurasi dihitung dengan membandingkan label sebenarnya (y_test) dengan hasil prediksi (y_pred) yang dilakukan
oleh model.

Dalam konteks ini, hasil akurasi yang dicetak akan memberikan persentase seberapa baik model KNN dapat memprediksi kelas 'Outcome' pada
data test set. Semakin tinggi nilai akurasi, semakin baik model dalam memprediksi dengan benar kelas 'Outcome' pada data yang belum
pernah dilihat sebelumnya.

mencoba memodifikasi dengan model lain

model Random Forest Classifier

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Membagi data menjadi train set dan test set

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Membuat model Random Forest dan melatihnya pada data train set
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

# Melakukan prediksi pada data test set

y_pred = model.predict(X_test)

# Menghitung akurasi dari model

accuracy = accuracy_score(y_test, y_pred)
print('Accuracy: {:.2f}%'.format(accuracy*100))

Accuracy: 81.82%

algoritma Decision Tree

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Membagi data menjadi train set dan test set

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Membuat model Decision Tree dan melatihnya pada data train set
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

# Melakukan prediksi pada data test set

y_pred = model.predict(X_test)

# Menghitung akurasi dari model

( t t d)
https://colab.research.google.com/drive/12Gb7rO_8zHp-OD5qpD7omP81HZEL-Muk#scrollTo=_bfoR2r9QsRn&printMode=true 5/6
5/7/23, 9:31 PM Task10_Bagus Arimanu.ipynb - Colaboratory
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy: {:.2f}%'.format(accuracy*100))

Accuracy: 79.22%

check 0s completed at 9:28 PM

https://colab.research.google.com/drive/12Gb7rO_8zHp-OD5qpD7omP81HZEL-Muk#scrollTo=_bfoR2r9QsRn&printMode=true 6/6

Anda mungkin juga menyukai

Exploratory Data Analysis
Belum ada peringkat
Exploratory Data Analysis
26 halaman
Tugas Dasar Pemodelan Dengan Python
Belum ada peringkat
Tugas Dasar Pemodelan Dengan Python
12 halaman
3 DataVisualization 1
Belum ada peringkat
3 DataVisualization 1
167 halaman
Raisin Python
Belum ada peringkat
Raisin Python
63 halaman
Classification With Python
Belum ada peringkat
Classification With Python
69 halaman
09 Tutorial Python Missing Values
Belum ada peringkat
09 Tutorial Python Missing Values
43 halaman
Explory Data Analys With Python
Belum ada peringkat
Explory Data Analys With Python
4 halaman
2118060-Coding Pre-Processing Dataset Brain Tumor
Belum ada peringkat
2118060-Coding Pre-Processing Dataset Brain Tumor
22 halaman
Syaira Yuniar - 2KA20 - 11123280 - 2-Tekrek-M8-KNN - DGX - Compressed
Belum ada peringkat
Syaira Yuniar - 2KA20 - 11123280 - 2-Tekrek-M8-KNN - DGX - Compressed
30 halaman
Oooo Salinan
Belum ada peringkat
Oooo Salinan
13 halaman
Jobsheet 9 - Herlambang & Candra
Belum ada peringkat
Jobsheet 9 - Herlambang & Candra
30 halaman
Hitam Krem Modern Memphis Tugas Kelompok Presentasi
Belum ada peringkat
Hitam Krem Modern Memphis Tugas Kelompok Presentasi
18 halaman
Tugas Python
50% (2)
Tugas Python
6 halaman
Data Preprocessing PDF
Belum ada peringkat
Data Preprocessing PDF
12 halaman
Materi PKB
Belum ada peringkat
Materi PKB
17 halaman
TM10 - B53 - Dewi Candra Agustin - G41181346
Belum ada peringkat
TM10 - B53 - Dewi Candra Agustin - G41181346
11 halaman
Tugas 3 Data Mining
Belum ada peringkat
Tugas 3 Data Mining
11 halaman
Modul 3 - Klasifikasi
Belum ada peringkat
Modul 3 - Klasifikasi
17 halaman
Tantangan Milestone Pada Kumpulan Data Sepeda Bekas
Belum ada peringkat
Tantangan Milestone Pada Kumpulan Data Sepeda Bekas
11 halaman
Kelompok Tomodachi
Belum ada peringkat
Kelompok Tomodachi
28 halaman
Analisis Kecocokan Model Algoritma Untuk Prediksi Berisiko Terkena Jantung
Belum ada peringkat
Analisis Kecocokan Model Algoritma Untuk Prediksi Berisiko Terkena Jantung
27 halaman
Desicion Tree
Belum ada peringkat
Desicion Tree
6 halaman
SVM Deskripsi Fix
Belum ada peringkat
SVM Deskripsi Fix
6 halaman
Praktikum Big Data M - 7
Belum ada peringkat
Praktikum Big Data M - 7
12 halaman
SOAL UTS-Nata
Belum ada peringkat
SOAL UTS-Nata
6 halaman
Klasifikasi Beras Menggunakan Algoritma MobileNetV2
Belum ada peringkat
Klasifikasi Beras Menggunakan Algoritma MobileNetV2
21 halaman
Jobsheet 8-KNN
Belum ada peringkat
Jobsheet 8-KNN
14 halaman
Modul 1 - Exploratory Data Analysis
Belum ada peringkat
Modul 1 - Exploratory Data Analysis
12 halaman
Laporan8 Ayung Alqadri LatihanDataCleaning
Belum ada peringkat
Laporan8 Ayung Alqadri LatihanDataCleaning
16 halaman
Tugas ANN
Belum ada peringkat
Tugas ANN
10 halaman
4TA04 Denny Maulana Sechan 10321082 Laporan Akhir
Belum ada peringkat
4TA04 Denny Maulana Sechan 10321082 Laporan Akhir
5 halaman
Kuis Bda Kelompok2
Belum ada peringkat
Kuis Bda Kelompok2
10 halaman
Tugas Laporan - 211045 WINDA PAGASING
Belum ada peringkat
Tugas Laporan - 211045 WINDA PAGASING
7 halaman
Week 5
Belum ada peringkat
Week 5
6 halaman
ML Mid Dama
Belum ada peringkat
ML Mid Dama
5 halaman
Data Kelompok 10
Belum ada peringkat
Data Kelompok 10
22 halaman
Laporan Tugas APL 1
Belum ada peringkat
Laporan Tugas APL 1
5 halaman
Coding Penelitian C45
Belum ada peringkat
Coding Penelitian C45
5 halaman
G - L200200122 - Adi Mas Setiawan - Modul8 Dan 9
Belum ada peringkat
G - L200200122 - Adi Mas Setiawan - Modul8 Dan 9
17 halaman
Exploratory Data Analysis Dengan Pandas - Part 2
Belum ada peringkat
Exploratory Data Analysis Dengan Pandas - Part 2
4 halaman
K Means
Belum ada peringkat
K Means
13 halaman
G - L200200249 - Carissa Aprilia Pranowo - Modul8 Dan 9
Belum ada peringkat
G - L200200249 - Carissa Aprilia Pranowo - Modul8 Dan 9
15 halaman
Diabetes Prediction
Belum ada peringkat
Diabetes Prediction
6 halaman
ML - Pertemuan 3
Belum ada peringkat
ML - Pertemuan 3
13 halaman
Pertemuan 2 Data Science
Belum ada peringkat
Pertemuan 2 Data Science
9 halaman
Laporan Tugas APL 2
Belum ada peringkat
Laporan Tugas APL 2
5 halaman
Tugas 9
Belum ada peringkat
Tugas 9
3 halaman
Data Wrangling
Belum ada peringkat
Data Wrangling
12 halaman
Uas MCL
Belum ada peringkat
Uas MCL
7 halaman
Tutorial Lab 1
Belum ada peringkat
Tutorial Lab 1
22 halaman
Kode KNN
Belum ada peringkat
Kode KNN
5 halaman
Rangkuman Coding Python
Belum ada peringkat
Rangkuman Coding Python
2 halaman
Pembelajaran Machine Learning
Belum ada peringkat
Pembelajaran Machine Learning
7 halaman
Muhammad Arif (22010049)
Belum ada peringkat
Muhammad Arif (22010049)
3 halaman
SOAL UTS ML INF - AhmadTH+Farida
Belum ada peringkat
SOAL UTS ML INF - AhmadTH+Farida
8 halaman
Dataset
Belum ada peringkat
Dataset
7 halaman
Tugas Uas
Belum ada peringkat
Tugas Uas
1 halaman
UTS DataScience
Belum ada peringkat
UTS DataScience
5 halaman
Kelompok 9 - Kasus Etika Produsen Dan Pemasaran Serta Iklan Dan Dimensi Etisnya
Belum ada peringkat
Kelompok 9 - Kasus Etika Produsen Dan Pemasaran Serta Iklan Dan Dimensi Etisnya
10 halaman
KELOMPOK 7 - Studi Kasus Biaya Transaksi
Belum ada peringkat
KELOMPOK 7 - Studi Kasus Biaya Transaksi
13 halaman
Kelompok 5 - Populasi Dan Sampel Penelitian
Belum ada peringkat
Kelompok 5 - Populasi Dan Sampel Penelitian
29 halaman
Kelompok 5 - Kebijakan Ekonomi Internasional
Belum ada peringkat
Kelompok 5 - Kebijakan Ekonomi Internasional
17 halaman
Kelompok 7 - PPT
Belum ada peringkat
Kelompok 7 - PPT
15 halaman
Artikel KNN - Bagus Arimanu Dwipayana
Belum ada peringkat
Artikel KNN - Bagus Arimanu Dwipayana
4 halaman
Kelompok 7 - Valuta Asing
Belum ada peringkat
Kelompok 7 - Valuta Asing
18 halaman
24 - I Made Bagus Arimanu Dwipayana
Belum ada peringkat
24 - I Made Bagus Arimanu Dwipayana
4 halaman