100% menganggap dokumen ini bermanfaat (1 suara)
688 tayangan13 halaman

Pertemuan 5 - Business Understanding Dan Data Preparation

Dokumen ini membahas tentang tahapan Business Understanding dan Data Preparation dalam model CRISP-DM. Tahapan-tahapan penting dalam Business Understanding adalah menentukan tujuan bisnis dan masalah, sedangkan dalam Data Preparation meliputi pengecekan duplikasi data, pengolahan nilai kosong, penambahan dan pemisahan kolom, serta pembersihan data.

Diunggah oleh

saghifa.sff
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
100% menganggap dokumen ini bermanfaat (1 suara)
688 tayangan13 halaman

Pertemuan 5 - Business Understanding Dan Data Preparation

Dokumen ini membahas tentang tahapan Business Understanding dan Data Preparation dalam model CRISP-DM. Tahapan-tahapan penting dalam Business Understanding adalah menentukan tujuan bisnis dan masalah, sedangkan dalam Data Preparation meliputi pengecekan duplikasi data, pengolahan nilai kosong, penambahan dan pemisahan kolom, serta pembersihan data.

Diunggah oleh

saghifa.sff
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 13

Pertemuan 5

ALGORITMA DATA SCIENCE


Business Understanding dan Data Preparation
Menggunakan Python
Bussines Understanding
Salah satu tahapan pada model Cross-Industry Standard Process for Data Mining
(CRISP-DM) adalah Business Understanding. Tahap Business Understanding
merupakan tahap pertama yang perlu dilakukan dalam model CRISP-DM.

Business Understanding merupakan Langkah dalam menentukan tujuan bisnis,


menilai situasi saat ini, menetapkan tujuan penambangan data, dan
mengembangkan rencana proyek .

Dalam beberapa penelitian, Business Understanding dilakukan untuk menilai


tujuan dan persyaratan bisnis untuk menentukan area masalah machine
learning.
Library Python untuk Data Science
Pandas adalah module atau library dalam Bahasa pemrograman python
yang dapat digunakan untuk pengolahan data.
Library pandas tersedia gratis sehingga tidak membutuhkan sumber
daya apapun dalam mempelajari dan menggunakan module ini.
Sebelum menggunakan library ini perlu melakukan import library dengan
perintah berikut: import pandas as nm_variabel.

Menyimpan Data menjadi DataFrame (Pandas)

Pilih +Code untuk menambahkan baris kode baru


Bussines Understanding
Tujuan utama pemahaman data adalah untuk mendapatkan gambaran umum
tentang data, yang meliputi jumlah baris dan kolom, nilai dalam data, tipe data,
dan nilai yang hilang dalam kumpulan data.
 Menampilkan 5 Data Teratas (head) dan 5 data terakhir (tail)

 Memahami tipe data dan Informasi tentang data


untuk memahami tipe data dan informasi tentang data, termasuk jumlah
record di setiap kolom, data yang memiliki null atau tidak null, Tipe data,
penggunaan memori kumpulan data dapat menggunakan (info)

 S
Data Preparation – Check Duplikasi Data
 Check Duplikasi Data (nunique)
nunique() berdasarkan beberapa nilai unik di setiap kolom dan deskripsi data,
kita dapat mengidentifikasi kolom kontinu dan kategorikal dalam data. Data
duplikat dapat ditangani atau dihapus berdasarkan analisis lebih lanjut
Contoh: data.nunique()
Data Preparation – Perhitungan Nilai
 Menghitung Nilai yang Hilang (isnull)
isnull() secara luas telah dilakukan di semua langkah pra-pemrosesan untuk
mengidentifikasi nilai null dalam data.
1. Isnull() digunakan untuk mengetahui baris/ record yang tidak memiliki
nilai
2. data.isnull().sum() digunakan untuk mendapatkan jumlah record yang
hilang di setiap kolom
Data Preparation – Pengurangan Data
Beberapa kolom atau variabel dapat dihilangkan jika tidak menambah nilai
analisis. Dalam kumpulan data, kolom S.No hanya memiliki nilai ID, dengan
asumsi nilai tersebut tidak memiliki kekuatan prediktif untuk memprediksi
variabel dependen.
Data Preparation – Menambahkan Kolom Data Baru
Akan sulit untuk mengetahui umur mobil jika dalam format tahun karena Umur
mobil merupakan faktor yang mempengaruhi Harga Mobil. Maka perlu
Menambahkan kolom baru “Car_Age” untuk mengetahui umur mobil.
Data Preparation – Split Data
Karena nama mobil tidak akan menjadi prediktor harga yang bagus dalam data
saat ini. Namun kita dapat memproses kolom ini untuk mengekstrak informasi
penting menggunakan nama merek dan Model. Mari kita pisahkan nama dan
perkenalkan variabel baru “Merek” dan “Model”
Data Preparation – Pembersihan Data
Beberapa nama variabel tidak relevan dan tidak mudah dipahami.
Beberapa data mungkin mengalami kesalahan entri data, dan beberapa variabel
mungkin memerlukan konversi tipe data. Kita perlu memperbaiki masalah ini pada
data .
Data Preparation – Pembersihan Data (Lanjutan)
Pada contoh, Nama merek 'Isuzu' 'ISUZU' dan 'Mini' dan 'Land' terlihat salah. Ini
perlu menampilkan data Brand tersebut menggunakan rumus berikut:
Data Preparation – Pembersihan Data (Lanjutan)
ada contoh, Nama merek 'Isuzu' 'ISUZU' dan 'Mini' dan 'Land' terlihat salah. Ini
perlu diperbaiki menggunakan coding berikut ini:

Pada pertemuan ini telah melakukan analisis data mendasar, Menampilkan, dan
pembersihan data. Selanjutnya akan melanjutkan pada proses EDA pada
pertemuan selanjutnya.
Tugas

1. Gunakan Dataset sudah didapatkan pada tugas pertemuan sebelumnya,


2. Lakukan Langkah berikut ini pada dataset kelompok:
 Business Under standing
a. Latar belakang Pemilihan Dataset
b. Menjelaskan Type dan Informasi Data

 Data Preparation
a. Jelaskan tahapan apa saja yang digunakan pada tahap Data
Preparation
b. Jelaskan hasil setiap tahapan yang digunakan

3. Tugas dikumpulkan dan didiskusikan pada pertemuan 9

Note: Hasil Tugas dapat dilanjutkan dan merupakan bagian dari Tugas Besar
Matakuliah Algoritma Dat Science

Anda mungkin juga menyukai