0% menganggap dokumen ini bermanfaat (0 suara)

24 tayangan17 halaman

Data Cleansing Processing

Diunggah oleh

rioalghaniyputra25

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

24 tayangan17 halaman

Data Cleansing Processing

Diunggah oleh

rioalghaniyputra25

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 17

Data Analyst

Data Cleansing & Processing

smk.dev

smk.dev
Data Cleansing &
Processing
Membersihkan dan mempersiapkan data sebelum dianalisis. Ibarat
membersihkan lensa sebelum memotret, proses ini memastikan data kamu
bebas kesalahan, konsisten, dan siap untuk dianalisis.

berbagai teknik pembersihan dan persiapan data, seperti:

● Menangani nilai hilang: Data yang tidak lengkap bisa terjadi. Kita akan
belajar cara mengidentiﬁkasi dan menangani nilai-nilai yang hilang
tersebut.
● Membersihkan duplikat: Data yang terduplikat dapat mengacaukan
analisis. Kita akan belajar cara menemukan dan menghapus duplikat agar
data lebih akurat.
● Memperbaiki kesalahan entri data: Kesalahan ketik atau kesalahan input
data bisa terjadi. Kita akan belajar cara mengidentiﬁkasi dan memperbaiki
kesalahan tersebut.
smk.dev

● Transformasi data: Terkadang, data perlu diubah ke format yang lebih sesuai
untuk analisis. Kita akan belajar berbagai teknik transformasi data.

smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Sebagai calon data analyst, kamu akan sering berhadapan dengan
hutan data yang rimbun. Di antara pepohonan data tersebut,
terdapat beberapa yang tidak berguna, layaknya ranting mati yang
menghambat analisis. Di sinilah pentingnya membuang data yang
tidak diperlukan.

Beberapa jenis data yang dapat dibuang:

● Data yang tidak relevan: Data yang tidak memiliki hubungan
dengan tujuan analisis.
● Data duplikat: Data yang muncul lebih dari sekali dalam dataset.
● Data yang mengandung noise: Data yang tidak akurat atau tidak
konsisten.
● Data yang tidak lengkap: Data yang memiliki nilai yang hilang.
smk.dev

smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Salah satu cara untuk menghapus column yang tidak digunakan
menggunakan library pandas (nb: dipraktekan melalui google
collabs)

nb : gunakan dataset yang ada pada perangkat teman teman ya 🤩

smk.dev

smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Menyaring Data dengan Boolean Indexing: Memilih Data yang Tepat
Boolean indexing:
● Teknik untuk memilih baris data berdasarkan kriteria tertentu.
● Menggunakan operator logika seperti AND, OR, dan NOT untuk
menentukan baris yang ingin dipilih.
● Membantu kamu menemukan data yang relevan dengan
kebutuhan analisis.
Manfaat Boolean indexing:
● Lebih eﬁsien daripada ﬁlter manual.
● Memungkinkan kamu memilih data dengan kriteria yang
kompleks.
smk.dev

● Dapat digabungkan dengan teknik data analysis lainnya.

smk.dev
Data Cleansing & Processing : Removing
Unnecessary Data
Berikut adalah untuk menghapus baris yang dimana memiliki value
dalam sebuah kolom kurang dari nilai yang diharapkan. (nb:
dipraktekan melalui google collabs)
smk.dev

smk.dev
Data Cleansing & Processing : Dealing with
Duplicate Records
Sebagai calon data analyst, kamu pasti akan bertemu dengan
musuh tersembunyi dalam data: data duplikat. Data duplikat
ibarat hantu data, salinan identik yang muncul lebih dari sekali
dalam dataset. Keberadaan mereka dapat mengacaukan analisis
dan membuat kesimpulanmu menjadi tidak akurat.

Data duplikat dapat muncul karena berbagai hal:

● Kesalahan entri data: Pengetikan yang salah, copy-paste yang
tidak hati-hati, atau entri manual ganda.
● Masalah pengumpulan data: Data yang dikumpulkan dari
sumber yang berbeda mungkin mengandung duplikat.
● Isu pemrosesan data: Transformasi data yang tidak tepat dapat
smk.dev

menghasilkan duplikat yang tidak diinginkan.

smk.dev
Data Cleansing & Processing : Dealing with
Duplicate Records
Mengapa data duplikat berbahaya?

● Bias : Menyebabkan analisis menjadi bias dan tidak akurat. Data duplikat
"memvoting" berulang kali, sehingga skewing hasil analisis dan memberikan
gambaran yang tidak realistis.
● Membuang waktu dan sumber daya: Data duplikat membutuhkan storage dan
konsumsi energi untuk diproses, padahal tidak memberikan informasi baru.
● Mengelabui model machine learning: Model yang dilatih dengan data duplikat
dapat belajar pola yang salah dan menghasilkan prediksi yang tidak akurat.

Menangani data duplikat:

1. Identiﬁkasi: Gunakan teknik seperti sorting, comparison, dan fungsi khusus untuk
menemukan data duplikat.
2. Hapus atau pertahankan:
○ Hapus duplikat sepenuhnya jika tidak mengandung informasi unik.
○ Pertahankan satu duplikat dan tambahkan informasi tambahan untuk
membedakannya dari yang lain jika dibutuhkan.
smk.dev

3. Dokumentasikan: Catat proses yang kamu lakukan untuk menangani data duplikat
untuk referensi di masa depan.

smk.dev
Data Cleansing & Processing : Dealing with
Duplicate Records
Berikut adalah untuk mengidentiﬁkasi duplicate records yang dimana kamu bisa
menggunakan library panda dan menggunakan function duplicate (nb: dipraktekan
melalui google collabs)

Untuk menghapus duplicated records bisa menggunakan perintah dibawah ini :

smk.dev

smk.dev
Data Cleansing & Processing : Correcting Data
Entry Errors
Sebagai calon data analyst, kamu pasti pernah bertemu dengan musuh
dalam selimut: kesalahan entri data. 😂Kesalahan ini, seperti typo,
ketidakkonsistenan kapitalisasi, dan format yang salah, dapat membuat
data Anda tidak akurat dan tidak konsisten. Tapi tenang, Pandas hadir
dengan berbagai fungsi manipulasi string untuk membantumu
melawan musuh ini!

Kesalahan entri data yang umum:

● Typos: Kesalahan ketik, seperti "harga" menjadi "hargaa" atau "2023"
menjadi "2022".
● Ketidakkonsistenan kapitalisasi: "Nama" ditulis terkadang dengan
huruf kapital "N", terkadang tidak.
● Format yang salah: Tanggal yang ditulis "YYYY-MM-DD" tercampur
smk.dev

dengan "DD-MM-YYYY".

smk.dev
Data Cleansing & Processing : Correcting Data
Entry Errors
Dampak kesalahan entri data:

● Mengelabui analisis: Data yang tidak konsisten dapat menyebabkan kesimpulan yang salah
dan menyesatkan.
● Menyulitkan visualisasi: Data yang tidak seragam akan terlihat tidak rapi dan menyulitkan
interpretasi visual.
● Membuang waktu dan sumber daya: Membersihkan data yang berantakan membutuhkan
waktu dan tenaga ekstra.

Pandas untuk menyelamatkan data:

Pandas menyediakan berbagai fungsi manipulasi string yang ampuh untuk membersihkan
kesalahan entri data, seperti:

● str.lower(): Mengubah semua huruf menjadi huruf kecil, mengatasi masalah kapitalisasi yang
tidak konsisten.
● str.upper(): Mengubah semua huruf menjadi huruf besar, untuk konsistensi.
● str.strip(): Menghilangkan spasi di awal dan akhir string, mengatasi masalah format yang tidak
konsisten.
● str.replace(): Mengganti karakter atau teks tertentu dengan karakter atau teks lain,
smk.dev

memperbaiki typos dan kesalahan format.

smk.dev
Data Cleansing & Processing : Correcting Data
Entry Errors
Untuk mengoreksi ketidakkonsistenan kapitalisasi dalam sebuah kolom, kamu
dapat menggunakan fungsi str.lower atau str.upper dari library Pandas.

Untuk mengoreksi kesalahan ketik atau mengganti nilai tertentu, Anda

dapat menggunakan fungsi replace dari library Pandas.
smk.dev

smk.dev
Data Cleansing & Processing : Data Transformation

Sebagai calon data analyst, kamu akan sering berjumpa dengan data mentah yang
belum siap untuk dianalisis. Ibarat koki yang perlu menyiapkan bahan sebelum
memasak, kamu perlu mentransformasi data terlebih dahulu. Transformasi data
adalah proses mengubah data ke dalam format yang lebih cocok untuk analisis.

Mengapa transformasi data penting?

● Memungkinkan penggunaan teknik analisis yang lebih canggih: Banyak teknik

analisis, seperti machine learning, membutuhkan data dalam format numerik.
● Meningkatkan akurasi dan keandalan analisis: Transformasi data dapat
membantu mengatasi inkonsistensi dan kesalahan dalam data, sehingga
analisis menjadi lebih akurat dan dapat diandalkan.
● Mempermudah visualisasi data: Data yang tertransformasi dengan baik dapat
lebih mudah dipahami dan diinterpretasikan melalui visualisasi.

Salah satu langkah penting dalam transformasi data adalah mengubah variabel
kategorikal menjadi numerik. Variabel kategorikal adalah variabel yang memiliki
smk.dev

kategori atau label, seperti "warna baju" (merah, biru, hijau) atau "status
pernikahan" (menikah, lajang, cerai).

smk.dev
Data Cleansing & Processing : Data Transformation

Teknik untuk mengubah variabel kategorikal menjadi numerik:

● One-hot encoding: Membuat kolom baru untuk setiap kategori, dengan nilai 1 untuk kategori
yang sesuai dan 0 untuk kategori lainnya.
● Ordinal encoding: Memberikan nilai numerik yang berbeda untuk setiap kategori, berdasarkan
urutan atau peringkatnya.

Contoh:

Misalkan kamu memiliki dataset penjualan yang berisi informasi tentang warna baju yang dibeli.
Kamu ingin menggunakan data ini untuk memprediksi permintaan warna baju di masa depan.
Namun, model machine learning tidak dapat langsung memproses variabel "warna baju" yang
berupa teks.

Solusi:

Kamu dapat menggunakan one-hot encoding untuk mengubah variabel "warna baju" menjadi tiga
kolom baru: "merah", "biru", dan "hijau". Setiap kolom akan berisi nilai 1 jika baju tersebut berwarna
sesuai labelnya, dan 0 untuk warna lainnya.
smk.dev

smk.dev
Data Cleansing & Processing : Data Transformation

Dalam library Pandas, untuk melakukan one-hot encoding, yang membuat

kolom baru bernilai biner (0 atau 1) untuk setiap kategori, kamu dapat
menggunakan fungsi get_dummies. Sedangkan untuk ordinal encoding, yang
menetapkan nilai integer ke setiap kategori, kamu dapat menggunakan fungsi
replace.
smk.dev

smk.dev
Data Cleansing & Processing : Data Transformation

Menampilkan variabel numerik: Menormalkan variabel numerik melibatkan penskalaan

nilai ke rentang tertentu, biasanya [0, 1] atau [-1, 1]. Ini dapat membantu meningkatkan
kinerja algoritma pembelajaran mesin tertentu dan membuatnya lebih mudah untuk
membandingkan variabel dengan skala yang berbeda. Dalam Python, Anda dapat
menggunakan MinMaxScaler dari modul sklearn.preprocessing untuk menormalkan
variabel numerik.
smk.dev

smk.dev
Data Cleansing & Processing : Data Transformation

Membuat variabel baru: Membuat variabel baru berdasarkan variabel yang ada
dapat membantu Anda mengekstrak wawasan berharga dari data Anda.
Misalnya, Anda dapat membuat variabel baru yang mewakili rasio antara dua
variabel, atau variabel yang menangkap interaksi antara dua variabel. Untuk
membuat variabel baru di pandas, Anda dapat menggunakan operator
penugasan (=) dan melakukan operasi aritmatika pada kolom yang ada.
smk.dev

smk.dev

Anda mungkin juga menyukai

Pemrograman Berorientasi Objek dengan Visual C#
Dari Everand
Pemrograman Berorientasi Objek dengan Visual C#
Risal
3.5/5 (6)
AD Modul 12. Pembersihan Data
Belum ada peringkat
AD Modul 12. Pembersihan Data
17 halaman
Pembersihan Data (Data Cleansing)
Belum ada peringkat
Pembersihan Data (Data Cleansing)
29 halaman
Andata 2020 05
Belum ada peringkat
Andata 2020 05
159 halaman
Modul RPD 1
Belum ada peringkat
Modul RPD 1
18 halaman
Data Cleansing For ML - Rakamin Trial Class
Belum ada peringkat
Data Cleansing For ML - Rakamin Trial Class
28 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
Membersihkan Data
Belum ada peringkat
Membersihkan Data
41 halaman
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA Rev
Belum ada peringkat
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA Rev
9 halaman
Cleaning Data
50% (4)
Cleaning Data
19 halaman
Pengertian Data, Jenis Dan Tipe Data
100% (1)
Pengertian Data, Jenis Dan Tipe Data
20 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
29 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Data Cleaning Steps and Code
Belum ada peringkat
Data Cleaning Steps and Code
2 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
73 halaman
Materi3 4
Belum ada peringkat
Materi3 4
15 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Data Analyst Skills
Belum ada peringkat
Data Analyst Skills
13 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Data Cleaning
Belum ada peringkat
Data Cleaning
5 halaman
Rangkuman Pds Kelompok C-1
Belum ada peringkat
Rangkuman Pds Kelompok C-1
21 halaman
Data Mining
Belum ada peringkat
Data Mining
39 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
31 halaman
Data Preparation
Belum ada peringkat
Data Preparation
18 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
Kelompok Data Mining
Belum ada peringkat
Kelompok Data Mining
6 halaman
Data Cleaning
Belum ada peringkat
Data Cleaning
3 halaman
Processing Data Mining
Belum ada peringkat
Processing Data Mining
16 halaman
Module 2 - Data Preprocessing
Belum ada peringkat
Module 2 - Data Preprocessing
38 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Handout TIF311 DM 3
Belum ada peringkat
Handout TIF311 DM 3
36 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
Data Cleansing
Belum ada peringkat
Data Cleansing
17 halaman
(Day 2) Data Enthusiast Camp - Intermediate SQL
Belum ada peringkat
(Day 2) Data Enthusiast Camp - Intermediate SQL
36 halaman
Google Colab - Preprocessing
Belum ada peringkat
Google Colab - Preprocessing
10 halaman
Ringkasan UTS Data Mining
Belum ada peringkat
Ringkasan UTS Data Mining
23 halaman
485 - Data Mining-P03
Belum ada peringkat
485 - Data Mining-P03
25 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
11 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
41 halaman
05.2 Bab 2
Belum ada peringkat
05.2 Bab 2
7 halaman
Laporan8 Ayung Alqadri LatihanDataCleaning
Belum ada peringkat
Laporan8 Ayung Alqadri LatihanDataCleaning
16 halaman
Materi Data Analyst
Belum ada peringkat
Materi Data Analyst
13 halaman
Pembersihan Data - Kelompok 4
Belum ada peringkat
Pembersihan Data - Kelompok 4
14 halaman
UTS1
Belum ada peringkat
UTS1
9 halaman
Learning Progress Review Week 5 - Kelompok3
Belum ada peringkat
Learning Progress Review Week 5 - Kelompok3
31 halaman
Pertemuan 5 - Business Understanding Dan Data Preparation
100% (1)
Pertemuan 5 - Business Understanding Dan Data Preparation
13 halaman
Pertemuan-3: Persiapan Data
Belum ada peringkat
Pertemuan-3: Persiapan Data
23 halaman
Sesi 3 - Data Cleaning & EDA
Belum ada peringkat
Sesi 3 - Data Cleaning & EDA
38 halaman
02 - Data Preprocessing
Belum ada peringkat
02 - Data Preprocessing
27 halaman
5-Machine Learning Lifecycle
Belum ada peringkat
5-Machine Learning Lifecycle
55 halaman
Modul-8-Penentuan Objek Dan Pembersihan Data-Template Bahan Ajar TA DTS 2021-IMW
Belum ada peringkat
Modul-8-Penentuan Objek Dan Pembersihan Data-Template Bahan Ajar TA DTS 2021-IMW
88 halaman
Materi Analis Data Informatika
Belum ada peringkat
Materi Analis Data Informatika
7 halaman
SIA Pertemuan 5
Belum ada peringkat
SIA Pertemuan 5
5 halaman
Materi Data Wrangling
Belum ada peringkat
Materi Data Wrangling
50 halaman
JAWABAN
Belum ada peringkat
JAWABAN
5 halaman