0% menganggap dokumen ini bermanfaat (0 suara)
24 tayangan17 halaman

Data Cleansing Processing

Diunggah oleh

rioalghaniyputra25
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
24 tayangan17 halaman

Data Cleansing Processing

Diunggah oleh

rioalghaniyputra25
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 17

Data Analyst

Data Cleansing & Processing


smk.dev

smk.dev
Data Cleansing &
Processing
Membersihkan dan mempersiapkan data sebelum dianalisis. Ibarat
membersihkan lensa sebelum memotret, proses ini memastikan data kamu
bebas kesalahan, konsisten, dan siap untuk dianalisis.

berbagai teknik pembersihan dan persiapan data, seperti:


● Menangani nilai hilang: Data yang tidak lengkap bisa terjadi. Kita akan
belajar cara mengidentifikasi dan menangani nilai-nilai yang hilang
tersebut.
● Membersihkan duplikat: Data yang terduplikat dapat mengacaukan
analisis. Kita akan belajar cara menemukan dan menghapus duplikat agar
data lebih akurat.
● Memperbaiki kesalahan entri data: Kesalahan ketik atau kesalahan input
data bisa terjadi. Kita akan belajar cara mengidentifikasi dan memperbaiki
kesalahan tersebut.
smk.dev

● Transformasi data: Terkadang, data perlu diubah ke format yang lebih sesuai
untuk analisis. Kita akan belajar berbagai teknik transformasi data.

smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Sebagai calon data analyst, kamu akan sering berhadapan dengan
hutan data yang rimbun. Di antara pepohonan data tersebut,
terdapat beberapa yang tidak berguna, layaknya ranting mati yang
menghambat analisis. Di sinilah pentingnya membuang data yang
tidak diperlukan.

Beberapa jenis data yang dapat dibuang:


● Data yang tidak relevan: Data yang tidak memiliki hubungan
dengan tujuan analisis.
● Data duplikat: Data yang muncul lebih dari sekali dalam dataset.
● Data yang mengandung noise: Data yang tidak akurat atau tidak
konsisten.
● Data yang tidak lengkap: Data yang memiliki nilai yang hilang.
smk.dev

smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Salah satu cara untuk menghapus column yang tidak digunakan
menggunakan library pandas (nb: dipraktekan melalui google
collabs)

nb : gunakan dataset yang ada pada perangkat teman teman ya 🤩


smk.dev

smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Menyaring Data dengan Boolean Indexing: Memilih Data yang Tepat
Boolean indexing:
● Teknik untuk memilih baris data berdasarkan kriteria tertentu.
● Menggunakan operator logika seperti AND, OR, dan NOT untuk
menentukan baris yang ingin dipilih.
● Membantu kamu menemukan data yang relevan dengan
kebutuhan analisis.
Manfaat Boolean indexing:
● Lebih efisien daripada filter manual.
● Memungkinkan kamu memilih data dengan kriteria yang
kompleks.
smk.dev

● Dapat digabungkan dengan teknik data analysis lainnya.

smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Berikut adalah untuk menghapus baris yang dimana memiliki value
dalam sebuah kolom kurang dari nilai yang diharapkan. (nb:
dipraktekan melalui google collabs)
smk.dev

smk.dev
Data Cleansing & Processing : Dealing with
Duplicate Records
Sebagai calon data analyst, kamu pasti akan bertemu dengan
musuh tersembunyi dalam data: data duplikat. Data duplikat
ibarat hantu data, salinan identik yang muncul lebih dari sekali
dalam dataset. Keberadaan mereka dapat mengacaukan analisis
dan membuat kesimpulanmu menjadi tidak akurat.

Data duplikat dapat muncul karena berbagai hal:


● Kesalahan entri data: Pengetikan yang salah, copy-paste yang
tidak hati-hati, atau entri manual ganda.
● Masalah pengumpulan data: Data yang dikumpulkan dari
sumber yang berbeda mungkin mengandung duplikat.
● Isu pemrosesan data: Transformasi data yang tidak tepat dapat
smk.dev

menghasilkan duplikat yang tidak diinginkan.

smk.dev
Data Cleansing & Processing : Dealing with
Duplicate Records
Mengapa data duplikat berbahaya?

● Bias : Menyebabkan analisis menjadi bias dan tidak akurat. Data duplikat
"memvoting" berulang kali, sehingga skewing hasil analisis dan memberikan
gambaran yang tidak realistis.
● Membuang waktu dan sumber daya: Data duplikat membutuhkan storage dan
konsumsi energi untuk diproses, padahal tidak memberikan informasi baru.
● Mengelabui model machine learning: Model yang dilatih dengan data duplikat
dapat belajar pola yang salah dan menghasilkan prediksi yang tidak akurat.

Menangani data duplikat:

1. Identifikasi: Gunakan teknik seperti sorting, comparison, dan fungsi khusus untuk
menemukan data duplikat.
2. Hapus atau pertahankan:
○ Hapus duplikat sepenuhnya jika tidak mengandung informasi unik.
○ Pertahankan satu duplikat dan tambahkan informasi tambahan untuk
membedakannya dari yang lain jika dibutuhkan.
smk.dev

3. Dokumentasikan: Catat proses yang kamu lakukan untuk menangani data duplikat
untuk referensi di masa depan.

smk.dev
Data Cleansing & Processing : Dealing with
Duplicate Records
Berikut adalah untuk mengidentifikasi duplicate records yang dimana kamu bisa
menggunakan library panda dan menggunakan function duplicate (nb: dipraktekan
melalui google collabs)

Untuk menghapus duplicated records bisa menggunakan perintah dibawah ini :


smk.dev

smk.dev
Data Cleansing & Processing : Correcting Data
Entry Errors
Sebagai calon data analyst, kamu pasti pernah bertemu dengan musuh
dalam selimut: kesalahan entri data. 😂Kesalahan ini, seperti typo,
ketidakkonsistenan kapitalisasi, dan format yang salah, dapat membuat
data Anda tidak akurat dan tidak konsisten. Tapi tenang, Pandas hadir
dengan berbagai fungsi manipulasi string untuk membantumu
melawan musuh ini!

Kesalahan entri data yang umum:


● Typos: Kesalahan ketik, seperti "harga" menjadi "hargaa" atau "2023"
menjadi "2022".
● Ketidakkonsistenan kapitalisasi: "Nama" ditulis terkadang dengan
huruf kapital "N", terkadang tidak.
● Format yang salah: Tanggal yang ditulis "YYYY-MM-DD" tercampur
smk.dev

dengan "DD-MM-YYYY".

smk.dev
Data Cleansing & Processing : Correcting Data
Entry Errors
Dampak kesalahan entri data:

● Mengelabui analisis: Data yang tidak konsisten dapat menyebabkan kesimpulan yang salah
dan menyesatkan.
● Menyulitkan visualisasi: Data yang tidak seragam akan terlihat tidak rapi dan menyulitkan
interpretasi visual.
● Membuang waktu dan sumber daya: Membersihkan data yang berantakan membutuhkan
waktu dan tenaga ekstra.

Pandas untuk menyelamatkan data:

Pandas menyediakan berbagai fungsi manipulasi string yang ampuh untuk membersihkan
kesalahan entri data, seperti:

● str.lower(): Mengubah semua huruf menjadi huruf kecil, mengatasi masalah kapitalisasi yang
tidak konsisten.
● str.upper(): Mengubah semua huruf menjadi huruf besar, untuk konsistensi.
● str.strip(): Menghilangkan spasi di awal dan akhir string, mengatasi masalah format yang tidak
konsisten.
● str.replace(): Mengganti karakter atau teks tertentu dengan karakter atau teks lain,
smk.dev

memperbaiki typos dan kesalahan format.

smk.dev
Data Cleansing & Processing : Correcting Data
Entry Errors
Untuk mengoreksi ketidakkonsistenan kapitalisasi dalam sebuah kolom, kamu
dapat menggunakan fungsi str.lower atau str.upper dari library Pandas.

Untuk mengoreksi kesalahan ketik atau mengganti nilai tertentu, Anda


dapat menggunakan fungsi replace dari library Pandas.
smk.dev

smk.dev
Data Cleansing & Processing : Data Transformation

Sebagai calon data analyst, kamu akan sering berjumpa dengan data mentah yang
belum siap untuk dianalisis. Ibarat koki yang perlu menyiapkan bahan sebelum
memasak, kamu perlu mentransformasi data terlebih dahulu. Transformasi data
adalah proses mengubah data ke dalam format yang lebih cocok untuk analisis.

Mengapa transformasi data penting?

● Memungkinkan penggunaan teknik analisis yang lebih canggih: Banyak teknik


analisis, seperti machine learning, membutuhkan data dalam format numerik.
● Meningkatkan akurasi dan keandalan analisis: Transformasi data dapat
membantu mengatasi inkonsistensi dan kesalahan dalam data, sehingga
analisis menjadi lebih akurat dan dapat diandalkan.
● Mempermudah visualisasi data: Data yang tertransformasi dengan baik dapat
lebih mudah dipahami dan diinterpretasikan melalui visualisasi.

Salah satu langkah penting dalam transformasi data adalah mengubah variabel
kategorikal menjadi numerik. Variabel kategorikal adalah variabel yang memiliki
smk.dev

kategori atau label, seperti "warna baju" (merah, biru, hijau) atau "status
pernikahan" (menikah, lajang, cerai).

smk.dev
Data Cleansing & Processing : Data Transformation

Teknik untuk mengubah variabel kategorikal menjadi numerik:

● One-hot encoding: Membuat kolom baru untuk setiap kategori, dengan nilai 1 untuk kategori
yang sesuai dan 0 untuk kategori lainnya.
● Ordinal encoding: Memberikan nilai numerik yang berbeda untuk setiap kategori, berdasarkan
urutan atau peringkatnya.

Contoh:

Misalkan kamu memiliki dataset penjualan yang berisi informasi tentang warna baju yang dibeli.
Kamu ingin menggunakan data ini untuk memprediksi permintaan warna baju di masa depan.
Namun, model machine learning tidak dapat langsung memproses variabel "warna baju" yang
berupa teks.

Solusi:

Kamu dapat menggunakan one-hot encoding untuk mengubah variabel "warna baju" menjadi tiga
kolom baru: "merah", "biru", dan "hijau". Setiap kolom akan berisi nilai 1 jika baju tersebut berwarna
sesuai labelnya, dan 0 untuk warna lainnya.
smk.dev

smk.dev
Data Cleansing & Processing : Data Transformation

Dalam library Pandas, untuk melakukan one-hot encoding, yang membuat


kolom baru bernilai biner (0 atau 1) untuk setiap kategori, kamu dapat
menggunakan fungsi get_dummies. Sedangkan untuk ordinal encoding, yang
menetapkan nilai integer ke setiap kategori, kamu dapat menggunakan fungsi
replace.
smk.dev

smk.dev
Data Cleansing & Processing : Data Transformation

Menampilkan variabel numerik: Menormalkan variabel numerik melibatkan penskalaan


nilai ke rentang tertentu, biasanya [0, 1] atau [-1, 1]. Ini dapat membantu meningkatkan
kinerja algoritma pembelajaran mesin tertentu dan membuatnya lebih mudah untuk
membandingkan variabel dengan skala yang berbeda. Dalam Python, Anda dapat
menggunakan MinMaxScaler dari modul sklearn.preprocessing untuk menormalkan
variabel numerik.
smk.dev

smk.dev
Data Cleansing & Processing : Data Transformation

Membuat variabel baru: Membuat variabel baru berdasarkan variabel yang ada
dapat membantu Anda mengekstrak wawasan berharga dari data Anda.
Misalnya, Anda dapat membuat variabel baru yang mewakili rasio antara dua
variabel, atau variabel yang menangkap interaksi antara dua variabel. Untuk
membuat variabel baru di pandas, Anda dapat menggunakan operator
penugasan (=) dan melakukan operasi aritmatika pada kolom yang ada.
smk.dev

smk.dev

Anda mungkin juga menyukai