Data Preprocessing
Data Preprocessing
Unggul Harfianto
CC – HIMASTA-ITS
1
3 Agustus 2023
1
1 Descriptive Statistic in Python
2
Membuat DataFrame
3
Melakukan penambahan Kolom dan Baris di Python
4
Melakukan penambahan Kolom dan Baris di Python
5
Melakukan penghapusan data kolom dan baris
6
Melakukan penghapusan data kolom dan baris
7
Beberapa Fungsi Statistika Deskriptif in Python
8
Pengoperasian Statistika Deskriptif
Total Mean
Max Min
Standar
Deviasi
9
2 Data Preprocessing
10
Beberapa Langkah dalam Preprocessing
Pemahaman Data,
Analisis data dimulai dengan memahami jenis data yang Anda miliki
Data Cleaning,
- Identifikasi dan tangani data yang hilang, duplikat, atau tidak valid.
- Data yang hilang bisa diisi, dihapus, atau diimputasi menggunakan metode yang tepat.
Identifikasi Outlier,
- Identifikasi dan pertimbangkan apakah outlier harus dibiarkan, dihapus, atau diolah khusus.
- Outlier dapat mempengaruhi analisis dan model.
Transformasi Data,
Melakukan transformasi data seperti mengonversi skala (log atau normalisasi) atau mengubah bentuk
distribusi (power transform).
11
Dalam Melakukan Pemahaman Data Wajib Dipahami
Jenis-jenis Data
Data Nominal, data yang diberikan pada obyek Data Interval, data dimana obyek/kategori dapat
atau kategori yang tidak menggambarkan kedudukan diurutkan berdasarkan suatu atribut yang memberikan
obyek tersebut, tetapi hanya sekedar label/kode . informasi tentang rentang antara tiap kategori sama.
12
Perbedaan Data Diskrit dan Kontinu
Diskrit Kontinu
Data dapat dihitung Data dapat diukur
Data diskrit merujuk pada data yang Data kontinu merujuk pada data yang
hanya dapat mengambil nilai tertentu dapat mengambil nilai dalam rentang
atau terbatas, yang dapat dihitung atau kontinu atau tak terhingga.
dihitung dengan angka bulat.
Data diskrit tidak memiliki nilai di antaraData kontinu diukur dalam bentuk
dua nilai yang diberikan. bilangan riil, yang berarti mereka bisa
berupa pecahan atau bilangan desimal.
Contoh data yang sering terjadi antara Contoh data kontinu yang umum yaitu
lain jumlah siswa, jumlah provinsi, jumlah tinggi, berat, waktu, suhu, usia, dll
anggota keluarga, dll
13
Tipe Data yang Ada di Python
14
Tipe Data yang Ada di Python
Data berupa
Kategorik
15
Selanjutnya dapat dilakukan Data Cleaning yang
Berupa Penanganan Missing Value
Missing value atau nilai yang hilang dalam data dapat disebabkan oleh
berbagai faktor dan kondisi.
16
Ada Berbagai Penanganan untuk Mengatasi
Permasalahan Missing Value
Menghapus Data, ini dilakukan ketika jumlah data yang hilang relative kecil
atau data observasi banyak, sehingga tidak mempengaruhi terhadap hasil analisis
Imputasi Data, Imputasi adalah teknik pengisian nilai yang hilang. Untuk
data numerik, Anda bisa menggantinya dengan nilai rata-rata, median, atau.
Untuk data kategorikal, Anda bisa menggunakan nilai yang paling umum
(modus).
Imputasi Model, Jika ada hubungan antara variabel yang memiliki nilai yang
hilang dengan variabel lain, Anda bisa menggunakan model regresi atau
klasifikasi untuk memprediksi nilai yang hilang berdasarkan variabel lain.
17
Cara untuk Mengetahui Variabel yang mengalami
Missing Value di Python
18
Imputasi Data dengan Nilai Mean dan Median
19
Imputasi Data dengan Menghapus satu baris pada
Data Tersebut
21
Imputasi Data dengan Suatu Nilai Tertentu
Imputasi data dengan suatu nilai numerik tertentu dilakukan karena suatu kondisi
khusus
22
Imputasi Data dengan Nilai Modus
Outlier atau nilai ekstrem adalah nilai yang secara signifikan berbeda dari nilai-nilai lain
dalam sebuah dataset. Outlier dapat mempengaruhi analisis statistik dan model yang dibangun,
sehingga penting untuk mengatasi mereka dengan benar.
Tetapkan Batas:
Menentukan batas yang dapat diterima untuk outlier berdasarkan Hapus Outlier:
3 pengetahuan domain, atau dengan menggunakan metode seperti 6 Jika outlier adalah hasil dari kesalahan yang tidak sesuai, bisa
IQR (Interquartile Range) atau z-score. memutuskan untuk menghapusnya dari dataset.
24
Mengidentifikasi Outlier dengan Menggunakan
Boxplot
25
Mengidentifikasi Outlier dengan Menggunakan
Zscore (1/2)
26
Mengidentifikasi Outlier dengan Menggunakan
Zscore (2/2)
27
Salah satu penanganan untuk outlier adalah berupa
penghapusan data outlier
28
3 Data Formatting in Python
29
Dalam Melakukan Analisis Data harus Sesuai Format
yang Benar (1/2)
30
Dalam Melakukan Analisis Data harus Sesuai Format
yang Benar (2/2)
31
Studi Kasus dalam Formatting Data di Phyton (1/6)
32
Studi Kasus dalam Formatting Data di Phyton (2/6)
33
Studi Kasus dalam Formatting Data di Phyton (3/6)
34
Studi Kasus dalam Formatting Data di Phyton (4/6)
35
Studi Kasus dalam Formatting Data di Phyton (5/6)
36
Studi Kasus dalam Formatting Data di Phyton (6/6)
37