Data Cleansing Processing
Data Cleansing Processing
smk.dev
Data Cleansing &
Processing
Membersihkan dan mempersiapkan data sebelum dianalisis. Ibarat
membersihkan lensa sebelum memotret, proses ini memastikan data kamu
bebas kesalahan, konsisten, dan siap untuk dianalisis.
● Transformasi data: Terkadang, data perlu diubah ke format yang lebih sesuai
untuk analisis. Kita akan belajar berbagai teknik transformasi data.
smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Sebagai calon data analyst, kamu akan sering berhadapan dengan
hutan data yang rimbun. Di antara pepohonan data tersebut,
terdapat beberapa yang tidak berguna, layaknya ranting mati yang
menghambat analisis. Di sinilah pentingnya membuang data yang
tidak diperlukan.
smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Salah satu cara untuk menghapus column yang tidak digunakan
menggunakan library pandas (nb: dipraktekan melalui google
collabs)
smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Menyaring Data dengan Boolean Indexing: Memilih Data yang Tepat
Boolean indexing:
● Teknik untuk memilih baris data berdasarkan kriteria tertentu.
● Menggunakan operator logika seperti AND, OR, dan NOT untuk
menentukan baris yang ingin dipilih.
● Membantu kamu menemukan data yang relevan dengan
kebutuhan analisis.
Manfaat Boolean indexing:
● Lebih efisien daripada filter manual.
● Memungkinkan kamu memilih data dengan kriteria yang
kompleks.
smk.dev
smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Berikut adalah untuk menghapus baris yang dimana memiliki value
dalam sebuah kolom kurang dari nilai yang diharapkan. (nb:
dipraktekan melalui google collabs)
smk.dev
smk.dev
Data Cleansing & Processing : Dealing with
Duplicate Records
Sebagai calon data analyst, kamu pasti akan bertemu dengan
musuh tersembunyi dalam data: data duplikat. Data duplikat
ibarat hantu data, salinan identik yang muncul lebih dari sekali
dalam dataset. Keberadaan mereka dapat mengacaukan analisis
dan membuat kesimpulanmu menjadi tidak akurat.
smk.dev
Data Cleansing & Processing : Dealing with
Duplicate Records
Mengapa data duplikat berbahaya?
● Bias : Menyebabkan analisis menjadi bias dan tidak akurat. Data duplikat
"memvoting" berulang kali, sehingga skewing hasil analisis dan memberikan
gambaran yang tidak realistis.
● Membuang waktu dan sumber daya: Data duplikat membutuhkan storage dan
konsumsi energi untuk diproses, padahal tidak memberikan informasi baru.
● Mengelabui model machine learning: Model yang dilatih dengan data duplikat
dapat belajar pola yang salah dan menghasilkan prediksi yang tidak akurat.
1. Identifikasi: Gunakan teknik seperti sorting, comparison, dan fungsi khusus untuk
menemukan data duplikat.
2. Hapus atau pertahankan:
○ Hapus duplikat sepenuhnya jika tidak mengandung informasi unik.
○ Pertahankan satu duplikat dan tambahkan informasi tambahan untuk
membedakannya dari yang lain jika dibutuhkan.
smk.dev
3. Dokumentasikan: Catat proses yang kamu lakukan untuk menangani data duplikat
untuk referensi di masa depan.
smk.dev
Data Cleansing & Processing : Dealing with
Duplicate Records
Berikut adalah untuk mengidentifikasi duplicate records yang dimana kamu bisa
menggunakan library panda dan menggunakan function duplicate (nb: dipraktekan
melalui google collabs)
smk.dev
Data Cleansing & Processing : Correcting Data
Entry Errors
Sebagai calon data analyst, kamu pasti pernah bertemu dengan musuh
dalam selimut: kesalahan entri data. 😂Kesalahan ini, seperti typo,
ketidakkonsistenan kapitalisasi, dan format yang salah, dapat membuat
data Anda tidak akurat dan tidak konsisten. Tapi tenang, Pandas hadir
dengan berbagai fungsi manipulasi string untuk membantumu
melawan musuh ini!
dengan "DD-MM-YYYY".
smk.dev
Data Cleansing & Processing : Correcting Data
Entry Errors
Dampak kesalahan entri data:
● Mengelabui analisis: Data yang tidak konsisten dapat menyebabkan kesimpulan yang salah
dan menyesatkan.
● Menyulitkan visualisasi: Data yang tidak seragam akan terlihat tidak rapi dan menyulitkan
interpretasi visual.
● Membuang waktu dan sumber daya: Membersihkan data yang berantakan membutuhkan
waktu dan tenaga ekstra.
Pandas menyediakan berbagai fungsi manipulasi string yang ampuh untuk membersihkan
kesalahan entri data, seperti:
● str.lower(): Mengubah semua huruf menjadi huruf kecil, mengatasi masalah kapitalisasi yang
tidak konsisten.
● str.upper(): Mengubah semua huruf menjadi huruf besar, untuk konsistensi.
● str.strip(): Menghilangkan spasi di awal dan akhir string, mengatasi masalah format yang tidak
konsisten.
● str.replace(): Mengganti karakter atau teks tertentu dengan karakter atau teks lain,
smk.dev
smk.dev
Data Cleansing & Processing : Correcting Data
Entry Errors
Untuk mengoreksi ketidakkonsistenan kapitalisasi dalam sebuah kolom, kamu
dapat menggunakan fungsi str.lower atau str.upper dari library Pandas.
smk.dev
Data Cleansing & Processing : Data Transformation
Sebagai calon data analyst, kamu akan sering berjumpa dengan data mentah yang
belum siap untuk dianalisis. Ibarat koki yang perlu menyiapkan bahan sebelum
memasak, kamu perlu mentransformasi data terlebih dahulu. Transformasi data
adalah proses mengubah data ke dalam format yang lebih cocok untuk analisis.
Salah satu langkah penting dalam transformasi data adalah mengubah variabel
kategorikal menjadi numerik. Variabel kategorikal adalah variabel yang memiliki
smk.dev
kategori atau label, seperti "warna baju" (merah, biru, hijau) atau "status
pernikahan" (menikah, lajang, cerai).
smk.dev
Data Cleansing & Processing : Data Transformation
● One-hot encoding: Membuat kolom baru untuk setiap kategori, dengan nilai 1 untuk kategori
yang sesuai dan 0 untuk kategori lainnya.
● Ordinal encoding: Memberikan nilai numerik yang berbeda untuk setiap kategori, berdasarkan
urutan atau peringkatnya.
Contoh:
Misalkan kamu memiliki dataset penjualan yang berisi informasi tentang warna baju yang dibeli.
Kamu ingin menggunakan data ini untuk memprediksi permintaan warna baju di masa depan.
Namun, model machine learning tidak dapat langsung memproses variabel "warna baju" yang
berupa teks.
Solusi:
Kamu dapat menggunakan one-hot encoding untuk mengubah variabel "warna baju" menjadi tiga
kolom baru: "merah", "biru", dan "hijau". Setiap kolom akan berisi nilai 1 jika baju tersebut berwarna
sesuai labelnya, dan 0 untuk warna lainnya.
smk.dev
smk.dev
Data Cleansing & Processing : Data Transformation
smk.dev
Data Cleansing & Processing : Data Transformation
smk.dev
Data Cleansing & Processing : Data Transformation
Membuat variabel baru: Membuat variabel baru berdasarkan variabel yang ada
dapat membantu Anda mengekstrak wawasan berharga dari data Anda.
Misalnya, Anda dapat membuat variabel baru yang mewakili rasio antara dua
variabel, atau variabel yang menangkap interaksi antara dua variabel. Untuk
membuat variabel baru di pandas, Anda dapat menggunakan operator
penugasan (=) dan melakukan operasi aritmatika pada kolom yang ada.
smk.dev
smk.dev