Pertemuan 5 - Business Understanding Dan Data Preparation
Pertemuan 5 - Business Understanding Dan Data Preparation
S
Data Preparation – Check Duplikasi Data
Check Duplikasi Data (nunique)
nunique() berdasarkan beberapa nilai unik di setiap kolom dan deskripsi data,
kita dapat mengidentifikasi kolom kontinu dan kategorikal dalam data. Data
duplikat dapat ditangani atau dihapus berdasarkan analisis lebih lanjut
Contoh: data.nunique()
Data Preparation – Perhitungan Nilai
Menghitung Nilai yang Hilang (isnull)
isnull() secara luas telah dilakukan di semua langkah pra-pemrosesan untuk
mengidentifikasi nilai null dalam data.
1. Isnull() digunakan untuk mengetahui baris/ record yang tidak memiliki
nilai
2. data.isnull().sum() digunakan untuk mendapatkan jumlah record yang
hilang di setiap kolom
Data Preparation – Pengurangan Data
Beberapa kolom atau variabel dapat dihilangkan jika tidak menambah nilai
analisis. Dalam kumpulan data, kolom S.No hanya memiliki nilai ID, dengan
asumsi nilai tersebut tidak memiliki kekuatan prediktif untuk memprediksi
variabel dependen.
Data Preparation – Menambahkan Kolom Data Baru
Akan sulit untuk mengetahui umur mobil jika dalam format tahun karena Umur
mobil merupakan faktor yang mempengaruhi Harga Mobil. Maka perlu
Menambahkan kolom baru “Car_Age” untuk mengetahui umur mobil.
Data Preparation – Split Data
Karena nama mobil tidak akan menjadi prediktor harga yang bagus dalam data
saat ini. Namun kita dapat memproses kolom ini untuk mengekstrak informasi
penting menggunakan nama merek dan Model. Mari kita pisahkan nama dan
perkenalkan variabel baru “Merek” dan “Model”
Data Preparation – Pembersihan Data
Beberapa nama variabel tidak relevan dan tidak mudah dipahami.
Beberapa data mungkin mengalami kesalahan entri data, dan beberapa variabel
mungkin memerlukan konversi tipe data. Kita perlu memperbaiki masalah ini pada
data .
Data Preparation – Pembersihan Data (Lanjutan)
Pada contoh, Nama merek 'Isuzu' 'ISUZU' dan 'Mini' dan 'Land' terlihat salah. Ini
perlu menampilkan data Brand tersebut menggunakan rumus berikut:
Data Preparation – Pembersihan Data (Lanjutan)
ada contoh, Nama merek 'Isuzu' 'ISUZU' dan 'Mini' dan 'Land' terlihat salah. Ini
perlu diperbaiki menggunakan coding berikut ini:
Pada pertemuan ini telah melakukan analisis data mendasar, Menampilkan, dan
pembersihan data. Selanjutnya akan melanjutkan pada proses EDA pada
pertemuan selanjutnya.
Tugas
Data Preparation
a. Jelaskan tahapan apa saja yang digunakan pada tahap Data
Preparation
b. Jelaskan hasil setiap tahapan yang digunakan
Note: Hasil Tugas dapat dilanjutkan dan merupakan bagian dari Tugas Besar
Matakuliah Algoritma Dat Science