LAPORAN
LAPORAN
Di Susun Oleh :
UNIVERSITAS MULIA
MEI 2024
1
KATA PENGANTAR
Segala puji dan syukur saya panjatkan ke hadirat Tuhan Yang Maha Esa yang telah
melimpahkan karunia-Nya kepada saya sehingga saya dapat menyelesaikan tugas laporan yang
Makalah ini disusun dan dipresentasikan untuk memenuhi salah satu syarat mata kuliah
Analisis Dan Visualisasi Data semester 4 dengan dosen pengampu Rizcky Gandarrityaz, S.T., M.T..
Judul ini dibuat agar mahasiswa khususnya saya mampu memahami dengan baik sehingga dapat
Tidak lupa kami sampaikan terima kasih kepada dosen pengampu mata kuliah Analisis
Dan Visualisasi Data yang telah memberikan arahan dan bimbingan dalam penyusunan makalah
ini. Kami berharap semoga makalah ini bermanfaat bagi penulis dan teman-teman, saran dan
kritik kami harapkan dari dosen pengampu dan teman-teman untuk perbaikan makalah ini.
2
Daftar Isi
KATA PENGANTAR...................................................................................................................................2
Daftar Isi.......................................................................................................................................................3
BAB 1............................................................................................................................................................4
PENDAHULUAN........................................................................................................................................4
BAB 2............................................................................................................................................................5
PEMBAHASAN...........................................................................................................................................5
3
BAB 1
PENDAHULUAN
Data akan mempunyai nilai apabila Anda dapat mengatur dan menganalisisnya dengan
baik. Pengelolaan data yang buruk hanya akan menghabiskan waktu, uang, dan energi. Di
sinilah data profiling memainkan perannya. Data profiling merupakan senjata ampuh
untuk mengeliminasi data yang buruk. Data profiling adalah tindakan pemantauan dan
pembersihan data yang dapat digunakan perusahaan untuk membuat keputusan data yang
lebih baik. Perintah untuk install menggunakan command prompt adalah: pip install ydata
vprofiling
4
BAB 2
PEMBAHASAN
Fungsi len menghitung jumlah pengamatan dalam suatu series / column. Fungsi
len akan menghitung semua pengamatan, terlepas dari apakah ada null-value atau
Fungsi count menghitung jumlah pengamatan non-NA / non-null dalam suatu series /
column. Fungsi len akan hanya menghitung elemen dari kolom yang mempunyai nilai
5
2.3 Langkah Kerja Tugas 3
Dengan Length dan Count, sekarang dapat menghitung jumlah missing-value. Jumlah
Fungsi max dan min digunakan untuk mengetahui element terbesar dan terkecil dari
6
2.5 Langkah Kerja Tugas 5
Fungsi mean, medium, modus dan standard deviasi digunakan untuk mengetahui
ukuran yang sama. Jika akan membagi distribusi menjadi empat grup yang sama, kuantil
yang dibuat dinamai quartile. Jika dibagi kedalam 10 sepuluh group yang sama
dinamakan percentile. Dalam kasus di bawah ini, ingin membagi distribusi menjadi
7
2.7 Langkah Kerja Tugas 7
Korelasi adalah cara yang tepat untuk menemukan hubungan antara variabel numerik.
Koefisien korelasi berkisar antara -1 hingga 1. Korelasi 1 adalah korelasi positif total,
korelasi -1 adalah korelasi negatif total dan korelasi 0 adalah korelasi non-linear.
Seperti yang terlihat di atas, mengumpulkan statistik deskriptif dapat menjadi proses
yang panjang. Pandas Profiling library memiliki function yang dapat membuat profiling
data secara otomatis. Untuk dapat menggunakannya, cukup dengan memanggil library:
import ydata_profiling
Syntax:
ydata_profiling.ProfileReport(nama_Dataframe)
8
2.9 Langkah Kerja Tugas 9
Dengan menggunakan contoh syntax di atas, berikut cara mencari kolom yang memiliki missing
data.
Setelah dijalankan, maka pada outputnya akan terlihat ternyata ada beberapa kolom yang
memiliki missing data, di sini kita ambil 1 kolom yaitu kolom quantity. Selanjutnya kita akan
melakukan proses imputasi dengan menggunakan fungsi mean pada kolom quantity
9
Maka setelah dijalankan otomatis row yang mengandung missing value akan terhapus, dan
Dengan cara yang sama, kita akan melakukan proses imputasi dengan menggunakan fungsi
10
Dengan cara yang sama, tentukan outliers di kolom item_price.
Periksa pada dataset retail_raw apakah ada data terduplikasi, jika ada maka buang data-data
11