0% menganggap dokumen ini bermanfaat (0 suara)
72 tayangan37 halaman

Data Preprocessing

Dokumen tersebut membahas tentang langkah-langkah dasar dalam mempersiapkan data (data preprocessing) di Python, meliputi statistik deskriptif, pembersihan data (data cleaning) dengan menangani nilai yang hilang (missing value), identifikasi nilai outlier, dan transformasi data. Langkah-langkah utama dalam pembersihan data adalah memahami jenis data, membersihkan data yang rusak atau tidak valid, mengisi nilai yang hilang, serta mengidentifikasi dan menangani nilai

Diunggah oleh

afthon azhari
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
72 tayangan37 halaman

Data Preprocessing

Dokumen tersebut membahas tentang langkah-langkah dasar dalam mempersiapkan data (data preprocessing) di Python, meliputi statistik deskriptif, pembersihan data (data cleaning) dengan menangani nilai yang hilang (missing value), identifikasi nilai outlier, dan transformasi data. Langkah-langkah utama dalam pembersihan data adalah memahami jenis data, membersihkan data yang rusak atau tidak valid, mengisi nilai yang hilang, serta mengidentifikasi dan menangani nilai

Diunggah oleh

afthon azhari
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 37

Data Preprocessing in Python

Data Analyst Course

Unggul Harfianto

CC – HIMASTA-ITS

1
3 Agustus 2023
1
1 Descriptive Statistic in Python

2
Membuat DataFrame

3
Melakukan penambahan Kolom dan Baris di Python

4
Melakukan penambahan Kolom dan Baris di Python

5
Melakukan penghapusan data kolom dan baris

6
Melakukan penghapusan data kolom dan baris

7
Beberapa Fungsi Statistika Deskriptif in Python

8
Pengoperasian Statistika Deskriptif

Total Mean

Max Min

Standar
Deviasi

9
2 Data Preprocessing

10
Beberapa Langkah dalam Preprocessing

Pemahaman Data,
Analisis data dimulai dengan memahami jenis data yang Anda miliki

Data Cleaning,
- Identifikasi dan tangani data yang hilang, duplikat, atau tidak valid.
- Data yang hilang bisa diisi, dihapus, atau diimputasi menggunakan metode yang tepat.

Identifikasi Outlier,
- Identifikasi dan pertimbangkan apakah outlier harus dibiarkan, dihapus, atau diolah khusus.
- Outlier dapat mempengaruhi analisis dan model.

Transformasi Data,
Melakukan transformasi data seperti mengonversi skala (log atau normalisasi) atau mengubah bentuk
distribusi (power transform).

11
Dalam Melakukan Pemahaman Data Wajib Dipahami
Jenis-jenis Data

Data Nominal, data yang diberikan pada obyek Data Interval, data dimana obyek/kategori dapat
atau kategori yang tidak menggambarkan kedudukan diurutkan berdasarkan suatu atribut yang memberikan
obyek tersebut, tetapi hanya sekedar label/kode . informasi tentang rentang antara tiap kategori sama.

Data Ordinal, data yang penomoran obyek atau


kategorinya disusun menurut besarnya yatu dari
Data Rasio, jenis data yang memiliki suatu nilai dan
tingkat terendah ke tertinggi atau sebaliknya dengan data di mana jarak antara nilai-nilai sama dan memiliki
nilai nol absolut. .
jarak/rentang tidak harus sama.

12
Perbedaan Data Diskrit dan Kontinu

Diskrit Kontinu
Data dapat dihitung Data dapat diukur
Data diskrit merujuk pada data yang Data kontinu merujuk pada data yang
hanya dapat mengambil nilai tertentu dapat mengambil nilai dalam rentang
atau terbatas, yang dapat dihitung atau kontinu atau tak terhingga.
dihitung dengan angka bulat.
Data diskrit tidak memiliki nilai di antaraData kontinu diukur dalam bentuk
dua nilai yang diberikan. bilangan riil, yang berarti mereka bisa
berupa pecahan atau bilangan desimal.
Contoh data yang sering terjadi antara Contoh data kontinu yang umum yaitu
lain jumlah siswa, jumlah provinsi, jumlah tinggi, berat, waktu, suhu, usia, dll
anggota keluarga, dll

13
Tipe Data yang Ada di Python

14
Tipe Data yang Ada di Python

Data berupa Integer

Data berupa Float

Data berupa
Kategorik

15
Selanjutnya dapat dilakukan Data Cleaning yang
Berupa Penanganan Missing Value

Missing value atau nilai yang hilang dalam data dapat disebabkan oleh
berbagai faktor dan kondisi.

Kegagalan Pengumpulan Data:


Data mungkin tidak berhasil dikumpulkan atau direkam dengan benar Tidak Terukur:
1 karena kesalahan manusia atau masalah teknis selama proses 6 Beberapa konsep atau peristiwa mungkin tidak dapat diukur secara
pengumpulan. akurat, dan ini dapat menghasilkan nilai yang hilang.

Data Tidak Tersedia: Data Pecah-pecah:


Dalam beberapa kasus, data mungkin tidak tersedia atau tidak Data mungkin tersebar di berbagai tempat atau sumber yang
2 diakses karena alasan tertentu seperti privasi, akses terbatas, atau 7 berbeda, dan beberapa nilai mungkin hilang karena data tidak
sumber data yang tidak lengkap. terkumpul secara lengkap.

Ketidaksesuaian: Kehilangan Selama Transfer:


3 Data mungkin tidak relevan atau tidak sesuai dengan variabel yang
8 Data mungkin hilang atau rusak saat mentransfer dari satu sistem
sedang diukur, yang mengakibatkan nilai yang hilang. atau format ke format lainnya.

Kelalaian Pengisian: Kondisi Khusus:


4 Saat mengisi formulir atau entri data, orang dapat dengan sengaja
9
Dalam beberapa kasus, data mungkin tidak ada karena suatu
atau tidak sengaja melewatkan pengisian nilai tertentu. kondisi khusus atau kasus langka yang tidak memiliki nilai yang
tercatat.
Kehilangan Data: Penolakan Responden:
5 Kehilangan data dapat terjadi selama bencana alam, kegagalan
10 Saat mengumpulkan data dari survei atau penelitian, beberapa
perangkat keras, atau situasi tak terduga lainnya. responden mungkin menolak untuk memberikan informasi tertentu.

16
Ada Berbagai Penanganan untuk Mengatasi
Permasalahan Missing Value

Menghapus Data, ini dilakukan ketika jumlah data yang hilang relative kecil
atau data observasi banyak, sehingga tidak mempengaruhi terhadap hasil analisis

Imputasi Data, Imputasi adalah teknik pengisian nilai yang hilang. Untuk
data numerik, Anda bisa menggantinya dengan nilai rata-rata, median, atau.
Untuk data kategorikal, Anda bisa menggunakan nilai yang paling umum
(modus).

Imputasi Model, Jika ada hubungan antara variabel yang memiliki nilai yang
hilang dengan variabel lain, Anda bisa menggunakan model regresi atau
klasifikasi untuk memprediksi nilai yang hilang berdasarkan variabel lain.

17
Cara untuk Mengetahui Variabel yang mengalami
Missing Value di Python

Mengetahui Variabel yang mengalami missing value merupakan Langkah awal


untuk melakukan Data Cleaning

18
Imputasi Data dengan Nilai Mean dan Median

Imputasi data dengan nilai mean dan median


- Mean, dilakukan Ketika data tidak terdapat outlier
- Median, dilakukan Ketika data terdapat Outlier

19
Imputasi Data dengan Menghapus satu baris pada
Data Tersebut

Penanganan missing value dengan menghapus baris pada suatu


data, biasanya dilakukan Ketika nilai missing value relative kecil
20
Imputasi Data dengan Menghapus satu baris pada
Data Tersebut

Jumlah data menjadi 5016 observasi dari yang awalnya 5042

21
Imputasi Data dengan Suatu Nilai Tertentu

Imputasi data dengan suatu nilai numerik tertentu dilakukan karena suatu kondisi
khusus

22
Imputasi Data dengan Nilai Modus

Imputasi data dengan nilai modus dilakukan


Ketika variabel berupa kategorik
23
Selanjutnya dapat dilakukan Identifikasi Outlier

Outlier atau nilai ekstrem adalah nilai yang secara signifikan berbeda dari nilai-nilai lain
dalam sebuah dataset. Outlier dapat mempengaruhi analisis statistik dan model yang dibangun,
sehingga penting untuk mengatasi mereka dengan benar.

Identifikasi Outlier: Transformasi Data:


1 Pertama, identifikasi outlier dalam dataset Anda menggunakan metode
statistik seperti analisis box plot, z-score, atau visualisasi grafik.
4 Lakukan transformasi pada data seperti log-transform atau power-
transform untuk meredakan dampak outlier pada distribusi data.

Pahami Konteks: Imputasi:


Pahami apakah outlier tersebut merupakan kesalahan pengukuran, Mengganti outlier dengan nilai yang lebih tepat berdasarkan
2 data yang valid tetapi tidak biasa, atau ada alasan khusus di balik 5 analisis data yang sehat. Ini bisa dilakukan dengan menggunakan
nilai ekstrem tersebut. nilai tengah atau metode lainnya.

Tetapkan Batas:
Menentukan batas yang dapat diterima untuk outlier berdasarkan Hapus Outlier:
3 pengetahuan domain, atau dengan menggunakan metode seperti 6 Jika outlier adalah hasil dari kesalahan yang tidak sesuai, bisa
IQR (Interquartile Range) atau z-score. memutuskan untuk menghapusnya dari dataset.

24
Mengidentifikasi Outlier dengan Menggunakan
Boxplot

Dapat diketahui dengan Menggunakan Boxplot bahwa


Variabel terdapat Outlier

25
Mengidentifikasi Outlier dengan Menggunakan
Zscore (1/2)

Selain menggunakan Boxplot, dapat menggunakan nilai


Z-score

26
Mengidentifikasi Outlier dengan Menggunakan
Zscore (2/2)

Data yang mengalami outlier ditunjukkan dari nilai Z-score


yang memiliki nilai dari 3

27
Salah satu penanganan untuk outlier adalah berupa
penghapusan data outlier

Setelah dilakukan penghapusan data, jumlah data menjadi


4543 dari yang sebelumnya 5016 data

28
3 Data Formatting in Python

29
Dalam Melakukan Analisis Data harus Sesuai Format
yang Benar (1/2)

Berikut beberapa fitur yang biasa digunakan dalam mengatur


format data dalam kondisi tertentu

30
Dalam Melakukan Analisis Data harus Sesuai Format
yang Benar (2/2)

Berikut beberapa fitur yang biasa digunakan dalam mengatur


format data dalam kondisi tertentu

31
Studi Kasus dalam Formatting Data di Phyton (1/6)

Kondisi dari data cukup berantakan, sehingga perlu dilakukan


formatting agar dapat dianalisis

32
Studi Kasus dalam Formatting Data di Phyton (2/6)

Hal yang pertama dilakukan adalah melakukan update kolom


yang terjadi pergeseran

33
Studi Kasus dalam Formatting Data di Phyton (3/6)

Kemudian dapat dilakukan hapus data pada kolom terakhir

34
Studi Kasus dalam Formatting Data di Phyton (4/6)

Kemudian dapat dilakukan hapus data pada data yang


mengalami duplikat

35
Studi Kasus dalam Formatting Data di Phyton (5/6)

Kemudian menghapus nilai u dan mengkonversi struktur data

36
Studi Kasus dalam Formatting Data di Phyton (6/6)

Merubah bentuk konsistensi dari variable ‘Sex’ agar dapat


dianalisis lebih lanjut

37

Anda mungkin juga menyukai