0% menganggap dokumen ini bermanfaat (0 suara)
22 tayangan11 halaman

LAPORAN

Laporan ini membahas tentang pengelolaan kualitas data menggunakan bahasa pemrograman Python. Laporan ini menjelaskan langkah-langkah untuk melakukan profiling data, menganalisis missing value, outlier detection, dan data cleansing.

Diunggah oleh

Aqza Nugraha
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
22 tayangan11 halaman

LAPORAN

Laporan ini membahas tentang pengelolaan kualitas data menggunakan bahasa pemrograman Python. Laporan ini menjelaskan langkah-langkah untuk melakukan profiling data, menganalisis missing value, outlier detection, dan data cleansing.

Diunggah oleh

Aqza Nugraha
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 11

LAPORAN

“DATA QUALITY WITH PYTHON “

Di Susun Oleh :

Muhammad Aqza Angga Nugraha 2213027

FAKULTAS ILMU KOMPUTER

PROGRAM STUDI SISTEM INFORMASI – S1

UNIVERSITAS MULIA

MEI 2024

1
KATA PENGANTAR

Segala puji dan syukur saya panjatkan ke hadirat Tuhan Yang Maha Esa yang telah

melimpahkan karunia-Nya kepada saya sehingga saya dapat menyelesaikan tugas laporan yang

berjudul “DATA QUALITY WITH PYTHON”.

Makalah ini disusun dan dipresentasikan untuk memenuhi salah satu syarat mata kuliah

Analisis Dan Visualisasi Data semester 4 dengan dosen pengampu Rizcky Gandarrityaz, S.T., M.T..

Judul ini dibuat agar mahasiswa khususnya saya mampu memahami dengan baik sehingga dapat

dipraktekan dengan baik dan benar dalam penulisan ini.

Tidak lupa kami sampaikan terima kasih kepada dosen pengampu mata kuliah Analisis

Dan Visualisasi Data yang telah memberikan arahan dan bimbingan dalam penyusunan makalah

ini. Kami berharap semoga makalah ini bermanfaat bagi penulis dan teman-teman, saran dan

kritik kami harapkan dari dosen pengampu dan teman-teman untuk perbaikan makalah ini.

2
Daftar Isi

KATA PENGANTAR...................................................................................................................................2
Daftar Isi.......................................................................................................................................................3
BAB 1............................................................................................................................................................4
PENDAHULUAN........................................................................................................................................4
BAB 2............................................................................................................................................................5
PEMBAHASAN...........................................................................................................................................5

3
BAB 1

PENDAHULUAN

1.1 Latar Belakang

Data akan mempunyai nilai apabila Anda dapat mengatur dan menganalisisnya dengan

baik. Pengelolaan data yang buruk hanya akan menghabiskan waktu, uang, dan energi. Di

sinilah data profiling memainkan perannya. Data profiling merupakan senjata ampuh

untuk mengeliminasi data yang buruk. Data profiling adalah tindakan pemantauan dan

pembersihan data yang dapat digunakan perusahaan untuk membuat keputusan data yang

lebih baik. Perintah untuk install menggunakan command prompt adalah: pip install ydata

vprofiling

1.2 Tujuan Dan Manfaat

1. Meningkatkan Keakuratan Data.


2. Mengoptimalkan Proses Bisnis.
3. Meningkatkan Kepatuhan dan Pelaporan.
4. Efisiensi Operasional.
5. Meningkatkan Kepercayaan Pengguna.
6. Kemampuan Automatisasi.
7. Alat yang Kuat untuk Analisis Data.
8. Fleksibilitas dan Ekstensibilitas.
9. Komunitas dan Dukungan yang Kuat.
10. Integrasi yang Mudah dengan Teknologi Lain.

4
BAB 2

PEMBAHASAN

2.1 Langkah Kerja Tugas 1

Fungsi len menghitung jumlah pengamatan dalam suatu series / column. Fungsi

len akan menghitung semua pengamatan, terlepas dari apakah ada null-value atau

tidak (include missing value)

2.2 Langkah Kerja Tugas 2

Fungsi count menghitung jumlah pengamatan non-NA / non-null dalam suatu series /

column. Fungsi len akan hanya menghitung elemen dari kolom yang mempunyai nilai

(exclude missing value)

5
2.3 Langkah Kerja Tugas 3

Dengan Length dan Count, sekarang dapat menghitung jumlah missing-value. Jumlah

nilai yang hilang adalah perbedaan antara Length dan Count.

2.4 Langkah Kerja Tugas 4

Fungsi max dan min digunakan untuk mengetahui element terbesar dan terkecil dari

suatu kolom di dataframe.

6
2.5 Langkah Kerja Tugas 5

Fungsi mean, medium, modus dan standard deviasi digunakan untuk mengetahui

pemusatan data dan persebarannya.

2.6 Langkah Kerja Tugas 6

print(order_df.dtypes) Quantiles adalah titik potong yang membagi distribusi dalam

ukuran yang sama. Jika akan membagi distribusi menjadi empat grup yang sama, kuantil

yang dibuat dinamai quartile. Jika dibagi kedalam 10 sepuluh group yang sama

dinamakan percentile. Dalam kasus di bawah ini, ingin membagi distribusi menjadi

empat grup atau quartile.

7
2.7 Langkah Kerja Tugas 7

Korelasi adalah cara yang tepat untuk menemukan hubungan antara variabel numerik.

Koefisien korelasi berkisar antara -1 hingga 1. Korelasi 1 adalah korelasi positif total,

korelasi -1 adalah korelasi negatif total dan korelasi 0 adalah korelasi non-linear.

2.8 Langkah Kerja Tugas 8

Seperti yang terlihat di atas, mengumpulkan statistik deskriptif dapat menjadi proses

yang panjang. Pandas Profiling library memiliki function yang dapat membuat profiling

data secara otomatis. Untuk dapat menggunakannya, cukup dengan memanggil library:

import ydata_profiling

Syntax:

ydata_profiling.ProfileReport(nama_Dataframe)

8
2.9 Langkah Kerja Tugas 9

Dengan menggunakan contoh syntax di atas, berikut cara mencari kolom yang memiliki missing
data.

2.10 Langkah Kerja Tugas 10

Setelah dijalankan, maka pada outputnya akan terlihat ternyata ada beberapa kolom yang

memiliki missing data, di sini kita ambil 1 kolom yaitu kolom quantity. Selanjutnya kita akan

melakukan proses imputasi dengan menggunakan fungsi mean pada kolom quantity

2.11 Langkah Kerja Tugas 11

9
Maka setelah dijalankan otomatis row yang mengandung missing value akan terhapus, dan

panjang row akan berkurang

2.12 Langkah Kerja Tugas 12

Dengan cara yang sama, kita akan melakukan proses imputasi dengan menggunakan fungsi

mean pada kolom item_price.

2.13 Langkah Kerja Tugas 13

10
Dengan cara yang sama, tentukan outliers di kolom item_price.

2.14 Langkah Kerja Tugas 14

Periksa pada dataset retail_raw apakah ada data terduplikasi, jika ada maka buang data-data

tersebut dengan syntax

#check for duplication print(retail_raw.duplicated(subset=None))

#remove duplication retail_raw = retail_raw.drop_duplicates()

11

Anda mungkin juga menyukai