0% menganggap dokumen ini bermanfaat (0 suara)

22 tayangan55 halaman

M11 - Exploratory Data Analysis Dengan Python

Diunggah oleh

Agus Wira Permana

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

22 tayangan55 halaman

M11 - Exploratory Data Analysis Dengan Python

Diunggah oleh

Agus Wira Permana

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 55

Exploratory Data Analysis

dengan Python

1
Topik
• Pengenalan Library dalam Python
• Library NumPy
• Library Pandas
• Library SciPy
• Library Matplotlib
• Memanggil library di Python
• Exploratory Data Analysis dengan Pandas – Bagian 1
• Membaca file dari Excel atau CSV sebagai data frame
• Inspeksi struktur data frame
• Melihat struktur kolom dan baris dari data frame
• Melihat preview data dari data frame
• Statistik Deskriptif dari Data Frame — Part 1
• Statistik Deskriptif dari Data Frame — Part 2
• Statistik Deskriptif dari Data Frame — Part 3
• Exploratory Data Analysis dengan Pandas ‐ Bagian 2
• Mengenal dan Membuat Distribusi Data dengan Histogram
• Standar Deviasi dan Varians pada Pandas
• Menemukan Outliers Menggunakan Pandas
• Rename Kolom Data Frame
• .groupby menggunakan Pandas
• Sorting Menggunakan Pandas
2
Exploratory Data Analysis dengan Python
• Exploratory Data Analysis (EDA) adalah tahapan penting sebelum
menganalisis suatu data karena EDA digunakan untuk mempelajari
karakteristik dari data tersebut.
• Karakteristik data yang dipelajari berupa memeriksa kesalahan‐
kesalahan data yang mungkin terjadi pada berbagai tahap, mulai dari
pencatatan data di lapangan sampai pada entry data pada komputer.
• Selain itu, EDA dapat digunakan untuk eksplorasi data sehingga kita
bisa menentukan model analisis yang tepat.

3
Pengenalan Library dalam Python

4
Pengenalan Library Python
• Dalam menganalisis data, kita tidak asing lagi dengan bahasa
pemograman — Python.
• Dalam topik ini akan dibahas kegunaan masing — masing library
dasar pada Python beserta contoh kasus penggunaan library tersebut
dalam menyelesaikan real — case di dunia kerja.

5
Macam‐macam Library pada Python

• Library pada Python merupakan kumpulan code yang bersifat open‐source

yang dapat dipanggil ke dalam Python dan digunakan untuk membantu
komputasi.
• Library dasar pada Python yang digunakan untuk analisis data:
• Library NumPy
• Library Pandas
• Library SciPy
• Library Matplotlib
• Tiap library memiliki fungsional yang berbeda — beda.
• Selanjutnya akan dibahas apa saja kegunaan dari masing‐
masing library beserta contoh kasus penggunaannya dalam menyelesaikan
berbagai real case di dunia kerja.
6
Library NumPy
• Numpy berasal dari kata ‘Numerical Python’
• Sesuai namanya NumPy berfungsi sebagai library untuk melakukan proses komputasi numerik
terutama dalam bentuk array multidimensional (1‐Dimensi ataupun 2‐Dimensi).
• Array merupakan kumpulan dari variabel yang memiliki tipe data yang sama.
• NumPy menyimpan data dalam bentuk arrays.
• Bentuk 1D NumPy array dapat diilustrasikan sebagai berikut:

• Bentuk 2D NumPy array dapat diilustrasikan sebagai berikut:

7
Library Pandas
• Pandas merupakan library yang memudahkan dalam melakukan
manipulasi, cleansing maupun analisis struktur data.
• Dengan menggunakan Pandas, dapat memanfaatkan lima fitur utama dalam pemrosesan
dan analisis data, yaitu:
• Load data
• Prepare data
• Manipulate data
• Modelling data
• Analysis data
• Pandas menggunakan konsep array dari NumPy namun memberikan index kepada array
tersebut, sehingga disebut series ataupun data frame.
• Sehingga bisa dikatakan Pandas menyimpan data dalam dictionary‐based NumPy arrays.
• 1‐Dimensi labelled array dinamakan sebagai Series.
• Sedangkan 2‐Dimensi dinamakan sebagai Data Frame.

8
Library Pandas
Bentuk 1D Pandas (Series)

Bentuk 2D Pandas (Data Frame)

9
Library SciPy
• Scipy dibangun untuk bekerja dengan array NumPy dan menyediakan
banyak komputasi numerik yang ramah pengguna dan efisien seperti
rutinitas untuk integrasi, diferensiasi dan optimasi numerik.
• Baik NumPy maupun SciPy berjalan pada semua operating system,
cepat dan mudah untuk diinstall dan gratis.
• NumPy dan SciPy mudah digunakan, dan kehandalannya membuat
beberapa data scientist dan researcher terkemuka dunia memilih
menggunakannya.

10
Library Matplotlib
• Matplotlib merupakan library dari Python yang umum digunakan untuk visualisasi
data.
• Matplotlib memiliki kapabilitas untuk membuat visualisasi data 2‐dimensional.
• Contoh visualisasi yang dapat dibuat dengan menggunakan matplotlib
diantaranya adalah:
1. Line chart
2. Bar chart
3. Pie chart
4. Box plot chart
5. Violin chart
6. Errorbar chart
7. Scatter chart
• Jenis‐jenis chart lainnya juga dapat dibuat melalui library ini.

11
Tes 1
• Karyawan A mendapatkan tugas dari karyawan B untuk membuat
summary dari hasil dataset penjualan di e‐commerce ABC, dimana
order dataset tersebut disimpan di CSV file. Namun karyawan A
memiliki kesulitan dalam melakukan proses loading dataset tersebut
ke dalam Python. Library dari Python manakah yang dapat
direkomendasikan kepada karyawan A?

12
Tes 2
• Setelah melakukan proses manipulasi data, untuk menyajikan data
tersebut, karyawan A butuh membuat beberapa chart terkait
distribusi data. Library manakah yang paling cocok digunakan oleh
karyawan A?

13
Memanggil library di Python
• Sebelum dapat digunakan, library tersebut harus terlebih dahulu dipanggil
ke dalam lingkungan Python.
• Command untuk memanggil library di Python menggunakan syntax
(menggunakan huruf kecil):
import library_name as alias
• Alias berfungsi sebagai pengganti nama library, sehingga menghemat
komputasi saat function dari library tersebut dipanggil.
• Contoh: mengimport library numpy & pandas:
import numpy as np
import pandas as pd
• Secara otomatis library numpy dan pandas akan diimport.
14
Exploratory Data Analysis dengan Pandas ‐ Bagian 1

15
Membaca file dari Excel atau CSV sebagai data frame

• Salah satu fungsi Pandas yaitu melakukan load data dari CSV atau
Excel file.
• Syntax yang digunakan untuk melakukan operasi tersebut, yaitu:

• Nama variabel ([nama_variabel]) dari contoh diatas menunjukkan

nama variabel dari dataframe untuk menampung data dari datasets
tersebut! 16
Tugas Praktek 1
• Cobalah untuk mengimport dataset marketplace ABC
dari order.csv dan disimpan ke dalam dataframe bernama order_df.
• Dari informasi tersebut dapat kita ketahui nama variabel dari
dataframe tersebut adalah order_df.
• Dan nama file nya adalah order.csv.
• Lengkapi syntax berikut ini:

import ‐‐‐ as ‐‐‐

‐‐‐ = pd.‐‐‐(‐‐‐)

17
Inspeksi struktur data frame
• Setelah melakukan proses loading dataframe ke dalam Python, hal
selanjutnya sebelum memulai analisis adalah mengerti struktur
dataset tersebut.
• Sehingga langkah selanjutnya dari pre‐analisis biasanya dilakukan
untuk:
1. melihat struktur kolom dan baris data frame (.shape)
2. melihat preview data dari dataframe tersebut (.head() dan .tail())
3. membuat summary data sederhana dari dataset (.describe())

18
Inspeksi struktur data frame:
1. Melihat struktur kolom dan baris dari data frame

• Hal pertama dalam mengerti struktur dari dataframe adalah informasi

mengenai berapa size dari dataframe yang akan digunakan termasuk
berapa jumlah kolom dan jumlah baris data frame tersebut.
• Dalam kasus ini, kita dapat menggunakan fungsi .shape pada suatu
dataframe.
• Syntax:

19
Tugas Praktek 2
• Pada order_df dataframe tuliskan syntax Python untuk melihat struktur
dari order_df dengan menggunakan fungsi shape!
• Lengkapi syntax berikut ini:
import ‐‐‐ as ‐‐‐
order_df = pd.‐‐‐(‐‐‐)
print(order_df.‐‐‐)

• Output:
(49999, 12)

• Ketika diprint, tampilan akan menjelaskan bahwa dataframe order_df memiliki

12 kolom & 49999 baris.

20
Inspeksi struktur data frame:
2. Melihat preview data dari data frame
• Selanjutnya, untuk mendapatkan gambaran dari konten dataframe tersebut. Kita dapat
menggunakan function .head() dan .tail(), dengan syntax:

• Jika [jumlah_data] pada function .head() dan .tail() dikosongkan maka secara default akan
di ditampilkan sebanyak 5 (lima) baris saja. Sehingga bisa ditulis sebagai berikut:

21
Tugas Praktek 3
• Cobalah untuk check bagaimana contoh data dari dataframe tersebut dengan fungsi head dengan limit
10 baris! import ‐‐‐ as ‐‐
• Berikut syntaxnya: order_df = pd.‐‐‐(‐‐‐)
print(order_df.‐‐‐)

Outputnya adalah tampilan 10 baris teratas

yang memiliki 12 kolom mulai dari kolom
order_id, … (read: dan seterusnya) hingga
kolom product_weight_gram.

22
Inspeksi struktur data frame:
3. Statistik Deskriptif dari Data Frame — Bagian 1

• Statistik deskriptif atau summary dalam Python — Pandas, dapat

diperoleh dengan menggunakan fungsi .describe(), yaitu:

• Function describe dapat memberikan informasi mengenai nilai:

• Rataan
• Standar deviasi
• IQR (interquartile range)

23
Inspeksi struktur data frame:
3. Statistik Deskriptif dari Data Frame — Bagian 1

• Ketentuan umum:
• Secara umum function describe() akan secara otomatis mengabaikan
kolom category dan hanya memberikan summary statistik untuk kolom
berjenis numerik.
• Kita perlu menambahkan argument bernama include = “all” untuk
mendapatkan summary statistik atau statistik deskriptif dari kolom numerik
dan karakter (category).
• yaitu:

24
Inspeksi struktur data frame:
3. Statistik Deskriptif dari Data Frame — Bagian 1
Contoh penggunaan describe() di Pandas!
• Terdapat dataframe Pandas dengan nama nilai_skor_df dengan informasi seperti gambar
dibawah:
Menghasilkan:

• dengan menggunakan fungsi describe pada nilai_skor_df

25
Inspeksi struktur data frame:
3. Statistik Deskriptif dari Data Frame — Bagian 2
• Jika ingin mendapatkan summary statistik dari kolom yang tidak bernilai angka, maka dapat
menambahkan command include=[“object”] pada syntax describe().

• Hasil include=[“object”]:
Hasil include=”all” :

• Function describe() dengan include=”all” akan

memberikan summary statistic dari semua kolom. Contoh
penggunaannya:

26
Inspeksi struktur data frame:
3. Statistik Deskriptif dari Data Frame — Bagian 3
• Selanjutnya, untuk mencari rataan dari suatu data dari dataframe. Gunakan syntax mean,
median, dan mode dari Pandas.

• Contoh penggunaan:

• Memberikan hasil:
21.4 # Mean
78 # Median

27
Tugas Praktek 4
1. Mengevaluasi performa cabang A dengan tambahan quick summary dari segi kuantitas, harga,
freight value, dan weight yang dibeli Konsumen. Manfaatkan dataframe order_df.
2. Mencari median dari total pembelian konsumen per transaksi kolom price

• Solusi nomor 1: Untuk bisa memperoleh data quick summary tersebut, gunakan
fungsi describe() terhadap order_df untuk melihat statistik deskriptif dari
kolom quantity, price, freight_value, dan product_weight_gram yang masing‐masing
mewakili kuantitas, harga, freight value, serta weight dari produk yang dibeli konsumen.
import ‐‐‐ as ‐‐‐
order_df = pd.‐‐‐("/path/order.csv")
# Quick summary dari segi kuantitas, harga, freight value, dan weight
print(order_df.‐‐‐)

• Ketika di run akan menampilkan:

28
Tugas Praktek 4
• Hanya dengan menggunakan fungsi describe() tanpa parameter
apapun, kita sudah langsung mendapatkan summary dari kolom data
yang kita inginkan.
• Mengapa? Karena kolom‐kolom tersebut bertipe numerik sehingga
kita hanya perlu menampilkannya
dengan describe() secara default saja.

29
Tugas Praktek 4
• No. 2: Mencari median dari total pembelian konsumen per transaksi
kolom “price”.
• Solusi:
• Pada bagian median kita harus mengetahui nama kolom yang ingin kita
analisis, sesuai permintaan yaitu kolom total pembelian konsumen per
transaksi, jika kita membuka dataframe dengan excel kita dapat melihat
bahwa kolom tersebut bernama “price”.
• Kemudian mengapa kita menggunakan syntax describe() pada kasus ini
dan bukannya .describe(include = “all”), dikarenakan sesuai
permintaan quick summary yang diinginkan hanya numerik saja.

30
Tugas Praktek 4
• Solusi No. 2: Menentukan median dari total pembelian Konsumen (kolom price) dengan
menggunakan fungsi median(). Dataframe yang akan kita gunakan dalam praktek ini
adalah order_df.
# Median dari total pembelian konsumen per transaksi kolom price
print(order_df.‐‐‐[:, ‐‐‐].‐‐‐)

• Output:

• Pada output diatas bahwa angka 2610000 merupakan nilai median dari total pembelian
konsumen per transaksi pada kolom price.

31
Exploratory Data Analysis dengan Pandas ‐ Bagian 2

32
Mengenal dan Membuat Distribusi Data dengan Histogram

• Histogram merupakan salah satu cara untuk mengidentifikasi sebaran distribusi dari data.
• Histogram adalah grafik yang berisi ringkasan dari sebaran (dispersi atau variasi) suatu data.
• Pada histogram, tidak ada jarak antar bar dari grafik.
• Hal ini dikarenakan bahwa titik data kelas bisa muncul dimana saja di daerah cakupan grafik.
• Sedangkan ketinggian bar sesuai dengan frekuensi atau frekuensi relatif jumlah data di kelas.
• Semakin tinggi bar, semakin tinggi frekuensi data.
• Semakin rendah bar, semakin rendah frekuensi data.

33
Mengenal dan Membuat Distribusi Data dengan Histogram

• Syntax umum:

• Beberapa atribut penting dalam histogram Contoh Histogram

pandas:
• bins = jumlah_bins dalam histogram yang akan
digunakan. Jika tidak didefinisikan jumlah_bins, maka
function akan secara default menentukan jumlah_bins
sebanyak 10.
• by = Kolom di DataFrame untuk di group by. (valuenya
berupa nama column di dataframe tersebut).
• alpha = Menentukan opacity dari plot di histogram.
(value berupa range 0.0–1.0, dimana semakin kecil
akan semakin kecil opacity nya)
• figsize = digunakan untuk menentukan ukuran dari plot
histogram. Contoh: figsize=(10,12)

34
Tugas Praktek 5
• Membuat suatu distribusi harga dari pembelian produk di cabang A.
• Dataframe yang akan kita gunakan sama seperti data sebelumnya, yaitu order_df.
• Supaya lebih mudah dipahami, kita akan membuatnya dalam bentuk histogram dari kolom price.
• Solusi:
• Pertama‐tama, import library yang dibutuhkan, yaitu Pandas dan Matplotlib.
• Selanjutnya, lakukan loading terhadap dataset order.csv kemudian membuat histogram dengan fungsi hist() untuk
membuat distribusi dari kolom price.
• Supaya histogram ini dapat ditampilkan, jangan lupa untuk menambahkan perintah plt.show(),
• Buat histogram pada kolom price dengan bins=10.
• Lengkapi:

• Terlihat setelah di run akan menampilkan histogram pada kolom price.

• terlihat bahwa banyaknya harga dari kolom price untuk tiap‐tiap datanya adalah hampir sama. 35
Standar Deviasi dan Varians pada Pandas
• Varians dan standar deviasi juga merupakan suatu ukuran dispersi atau variasi.
• Standar deviasi merupakan ukuran dispersi yang paling banyak dipakai.
• Hal ini mungkin karena standar deviasi mempunyai satuan ukuran yang sama dengan satuan ukuran data
asalnya.
• Sedangkan varians memiliki satuan kuadrat dari data asalnya (misalnya cm²).
• Syntax dari standar deviasi dan varians pada Pandas:

• Contoh penggunaan pada dataframe nilai_skor_df:

• Hasil:
2.701851217
152.8

36
Tugas Praktek 6
• Menampilkan data persebaran product_weight_gram pada data penjualan cabang A yang kita
peroleh dari order.csv.
• Tampilkan standar deviasi dan varians dari kolom product_weight_gram pada
dataframe order_df tadi untuk menganalisis lebar persebaran distribusi tersebut.
• Kode: import ‐‐‐ as ‐‐‐
order_df = pd.‐‐‐("/path/order.csv")

• Setelah di run akan menghasilkan standar variasi & varians nya, yaitu:
3929.896875372737
15444089.451064402

37
Menemukan Outliers Menggunakan Pandas
• Sebelum menuju ke step by step dalam
menemukan outliers, kita harus memahami definisi
dari outliers.
• Outliers merupakan data observasi yang muncul dengan
nilai‐nilai ekstrim.
• Yang dimaksud dengan nilai‐nilai ekstrim dalam observasi
adalah nilai yang jauh atau beda sama sekali dengan
sebagian besar nilai lain dalam kelompoknya.
• Pada umumnya, outliers dapat ditentukan dengan metric
IQR (interquartile range).
• Rumus dasar dari IQR: Q3 — Q1.
• Data suatu observasi dapat dikatakan outliers jika
memenuhi kedua syarat dibawah ini:
• data < Q1 – 1.5 * IQR
• data > Q3 + 1.5 * IQR

38
Menemukan Outliers Menggunakan Pandas
• Contoh case: mengidentifikasi IQR dari dataframe nilai_skor_df

• Maka query tersebut akan menghasilkan:

Hasil

• Setelah mendapatkan skor IQR, maka Outliers dapat ditentukan.

• Kode di bawah ini akan memberikan output dengan beberapa nilai
True atau False. Titik data di mana terdapat False yang berarti nilai‐nilai
ini valid sedangkan True menunjukkan adanya Outliers.

39
Tugas Praktek 7
• Setelah menentukan standar deviasi & varians pada kolom product_weight_gram, selanjutnya
dicoba menentukan batas IQR untuk bisa menentukan outliers bagi kolom product_weight_gram.
Manfaatkan dataframe order_df. import ‐‐‐ as ‐‐‐
order_df = pd.‐‐‐("/path/order.csv")

• Dilanjutkan dengan menghitung Q1, Q3, dan IQR:

• Setelah di run maka yang ditampilkan adalah IQR yang merupakan hasil dari Q3‐Q1:
product_weight_gram 1550.0
dtype: float64

40
Rename Kolom Data Frame
• Mengganti nama kolom dataframe menggunakan library Pandas.
• Mengganti nama kolom pada Pandas dapat dilakukan dengan 2 cara:
1. Menggunakan nama kolom.
2. Menggunakan indeks kolom.

1. Rename menggunakan nama kolom. Syntax:

• Contoh penggunaan:
2. Rename menggunakan indeks kolom. Syntax:

• Contoh penggunaan:
41
Tugas Praktek 8
• Cobalah untuk mengubah kolom freight_value menjadi shipping_cost dalam data frame order_df, dengan
menggunakan fungsi rename().
• Syntax:
import ‐‐‐ as ‐‐‐
order_df = ‐‐.‐‐‐("/path/order.csv")

• Ketika dirun, maka kolom freight_value berganti nama menjadi kolom shipping_cost. Berikut
tampilannya:
seller_ id shipping_cost \
0 1554a68530182680ad5c8b042c3ab563 28000
1 1554a68530182680ad5c8b042c3ab563 45000
2 a425f92c199eb576938df686728acd20 174000
3 522620dcb18a6b31cd7bdf73665113a9 154000
4 25e6ffe976bd75618accfe16cefcbd0d 147000
... ... ...
49994 7ddcbb64b5bc1ef36ca8c151f6ec77df 172000
49995 4d6d651bd7684af3fffabd5f08d12e5a 130000
49996 955fee9216a65b617aa5c0531780ce60 14000
49997 955fee9216a65b617aa5c0531780ce60 108000
49998 1900267e848ceeba8fa32d80c1a5f5a8 189000
42
.groupby menggunakan Pandas
• Kegunaan .groupby adalah mencari summary dari data frame
dengan menggunakan aggregate dari kolom tertentu.

• Contoh penggunaan:
Diberikan dataframe bernama df seperti pada gambar dibawah!

43
Syntax penggunaan groupby:
Penggunaan groupby
Hasil:
Penjelasan:
Kode menggunakan
kolom ‘Name’ sebagai aggreg
ate dan kemudian
menghitung mean dari
kolom ‘Score’ pada tiap-tiap
aggregate tersebut.

Contoh lainnya:

Hasil:
Penjelasan:
Kode menggunakan
kolom ‘Name’ dan ‘Exam’ se
bagai aggregate dan
kemudian menghitung
mean dari
kolom ‘Score’ pada tiap -
tiap aggregate tersebut.
44
Tugas Praktek 9
• Setelah memahami penggunaan fungsi groupby(). Carilah rata rata dari kolom ‘price’ dengan
mengelompokkannya per payment_type dari dataset order_df!
• Syntax: import ‐‐‐ as ‐‐
order_df = ‐‐.‐‐‐("/path/order.csv")

• Hasil: payment_type
credit card 2.600706e+06
debit card 2.611974e+06
e‐wallet 2.598562e+06
virtual account 2.619786e+06
Name: price, dtype: float64
• Terlihat rata‐rata transaksi dari setiap tipe pembayaran.
• Terdapat 4 jenis tipe pembayaran dalam data tersebut, yaitu menggunakan kartu kredit
(credit_card), kartu debit (debit_card), e‐wallet (e‐wallet), dan akun virtual (virtual account).
• Rata‐rata nilai kolom price untuk masing‐masing tipe pembayaran tersebut memiliki jumlah yang
hampir sama.
Sorting Menggunakan Pandas
• Sorting adalah sebuah metode mengurutkan data berdasarkan syarat kolom tertentu, dan
biasanya digunakan untuk melihat nilai maksimum dan minimum dari dataset.
• Library Pandas menyediakan fungsi sorting sebagai fundamental dari exploratory data analysis.
• Syntax untuk operasi sorting pada Pandas:

• Contoh: Sorting terhadap dataset nilai_skor_df berdasarkan kolom ‘age’!

• Menghasilkan sorting ascending:

46
Sorting Menggunakan Pandas
• Fungsi sorting secara default mengurutkan secara ascending (dimulai dari nilai terkecil), untuk
dapat mengurutkan secara descending (nilai terbesar lebih dahulu), dapat menggunakan properti
tambahan:

• Contoh:

• Sorting terhadap dataset nilai_skor_df berdasarkan age dimulai dari umur tertua!

• Menghasilkan:

47
Sorting Menggunakan Pandas
• Fungsi sorting di Pandas juga dapat dilakukan menggunakan lebih dari satu
kolom sebagai syarat.
• Contoh nya pada skenario dibawah, akan mencoba mengaplikasikan fungsi
Sorting menggunakan kolom ‘Age’ dan ‘Score’ sekaligus:

48
Tugas Praktek 10
• Cari berapa harga maksimum pembelian customer pada kolom ‘price’ di dataset order_df.
• Syntax: import ‐‐‐ as ‐‐‐
order_df = ‐‐‐.‐‐‐("/path/order.csv")

• Setelah dijalankan, maka hasilnya:

product_id price \
37085 35afc973633aaeb6b877ff57b2793310 5000000
41958 7c1bd920dbdf22470b68bde975dd3ccf 5000000
3976 777d2e438a1b645f3aec9bd57e92672c 5000000
21072 f8cfb63e323be2e1c4172f255d61843d 5000000
47074 2ea92fab7565c4fe9f91a5e4e1756258 5000000
... ... ...
33786 f93213a23c50edc16c27b96333f734dc 200000
42166 1166bc797ddf5fb009c376d133f61204 200000
31745 eb38a7604070a2b8465101ed53cba72b 200000
42452 db5efde3ad0cc579b130d71c4b2db522 200000
11939 06c6e01186af8b98ee1fc9e01f9471e9 200000
• Terlihat setelah di run, pembelian maksimum customer adalah 5000000.

49
Tugas Praktek 11
Analisis data penjualan dari dataset order.csv dengan detail laporan sebagai berikut. Lakukan
dengan cara:
1. Mengitung median price yang dibayar customer dari masing‐masing metode pembayaran.
2. Tentukan metode pembayaran yang memiliki basket size (rataan median price) terbesar.
3. Ubah freight_value menjadi shipping_cost dan cari shipping_cost termahal dari
data penjualan tersebut menggunakan sort.
4. Untuk product_category_name, berapa rata‐rata weight produk tersebut dan standar
deviasi mana yang terkecil dari weight tersebut,
5. Buat histogram quantity penjualan dari dataset tersebut untuk melihat persebaran quantity
penjualan tersebut dengan bins = 5 dan figsize= (4,5)

50
Solusi 1: Median price yang dibayar customer dari masing‐masing metode pembayaran.
Solusi 2: Metode pembayaran yang memiliki basket size (rataan median price) terbesar.

• Soal pertama: caranya adalah menggunakan kolom payment_type sebagai aggregate dan kemudian
menghitung median dari kolom price pada tiap‐tiap aggregate tersebut. Dengan kata lain, kita akan
menghitung median harga (pada kolom ‘price’) dengan mengelompokkannya menurut masing‐
masing metode pembayarannya (pada kolom ‘payment_type’)
• Dengan contoh diatas kita dapat menerapkan fungsi .groupby pada kasus ini.
import ‐‐‐ as ‐‐‐
import ‐‐‐.pyplot as ‐‐‐
order_df = ‐‐‐.‐‐‐("/path/order.csv")
# Median price yang dibayar customer dari masing‐masing metode pembayaran
median_price = order_df[‐‐‐].‐‐‐(order_df[‐‐‐]).‐‐‐()
• Hasil: print(‐‐‐)
payment_type
credit card 2587500
debit card 2621500
e‐wallet 2589000
virtual account 2643000
Name: price, dtype: int64
• Terlihat median dari price berdasarkan tipe pembayaran nya masing‐masing.
• Soal kedua: setelah dijalankan terlihat bahwa tipe pembayaran virtual account yang memiliki rata‐rata
median price yang paling besar, yaitu sebesar 2643000.
51
• Selanjutnya, ganti nama kolom freight_value menjadi shipping_cost, serta cari
nilai shipping_cost termahal dengan menggunakan fungsi sort_values().
import ‐‐‐ as ‐‐‐
import ‐‐‐.pyplot as ‐‐‐
order_df = pd.read_csv("/path/order.csv")
# Ubah freight_value menjadi shiping_cost dan cari shipping_cost
# termahal dari data penjualan tersebut menggunakan sort
order_df.‐‐‐(columns={‐‐‐: ‐‐‐}, ‐‐‐ = ‐‐‐)
sort_value = order_df.‐‐‐(‐‐‐ = ‐‐‐, ascending=0)
print(‐‐‐)

• Setelah di run, maka kolom tersebut berubah menjadi:

seller_id shipping_cost \ Solusi 3. Ubah
23829 cc419e0650a3c5ba77189a1882b7556a 200000
12011 2e0dba2da448400b1c11d7b4b22f32a4 200000 freight_value menjadi
10984
29722
d12c926d74ceff0a90a21184466ce161
259f7b5e6e482c230e5bfaa670b6bb8f
200000
200000
shipping_cost dan cari
15259 efcd8d2104f1a05d028af7bad20d974b 200000 shipping_cost termahal
... ... ...
2891 82e0a475a88cc9595229d8029273f045 9000 dari data penjualan tersebut
36815 d12c926d74ceff0a90a21184466ce161 9000
8175 6560211a19b47992c3666cc44a7e94c0 9000 menggunakan sort.
4034 004c9cd9d87a3c30c522c48c4fc07416 9000
32994 cb3dd9ce66268c7a3ca7241ac70ab58c 9000
• Kemudian kita tentukan shipping cost yang termahal. Berdasarkan data tersebut shipping cost
atau ongkos kirim yang paling mahal sebesar 200000. 52
Solusi 4: Untuk product_category_name, berapa rata‐rata weight produk
tersebut dan standar deviasi mana yang terkecil dari weight tersebut.
• Tugas No. 4, mencari berat rata‐rata mean() dari setiap kategori produk serta mencari standar deviasi std() dari
berat setiap kategori produk. Lalu mengembalikan kedua nilai tersebut masing‐masing pada
variabel mean_value dan std_value.
• Hasil:
product_category_name
automotive 2129.559039
beauty 2120.088396
electronics 2144.751191
fashion 2246.516901
gadget 2229.632942
sports 2251.879909
toys 2203.863643
utilities 2291.029868
Name: product_weight_gram, dtype: float64

product_category_name
automotive 3799.884166
beauty 3837.474929
electronics 3839.271768
fashion 3858.885213
gadget 3955.792741
sports 4032.850044
toys 3956.814749
utilities 4150.509909
Name: product_weight_gram, dtype: float64

• Terlihat dari data tersebut, produk ”beauty” memiliki berat rata‐rata paling kecil, yaitu sebesar 2120.088396
53
gram sedangkan produk “automotive” memiliki standar deviasi paling kecil, yaitu sebesar 3799.884166 gram.
Solusi 5: Buat histogram quantity penjualan dari dataset tersebut untuk melihat
persebaran quantity penjualan tersebut dengan bins = 5 dan figsize= (4,5).

• Syntax:

• Hasil:

54
Referensi
• Exploratory Data Analysis with Python for Beginner by DQLab.
• https://academy.dqlab.id/main/package/practice/163?pf=0

Anda mungkin juga menyukai

Pandas Cheatsheet
Belum ada peringkat
Pandas Cheatsheet
144 halaman
Explory Data Analys With Python
Belum ada peringkat
Explory Data Analys With Python
4 halaman
Modul 3
Belum ada peringkat
Modul 3
10 halaman
Exploratory Data Analysis With Python For Beginner
Belum ada peringkat
Exploratory Data Analysis With Python For Beginner
12 halaman
Firmania Dwi Utami - Pertemuan 3
Belum ada peringkat
Firmania Dwi Utami - Pertemuan 3
8 halaman
Python Training 4
Belum ada peringkat
Python Training 4
21 halaman
Exploratory Data Analysis
Belum ada peringkat
Exploratory Data Analysis
65 halaman
Pertemuan 11
Belum ada peringkat
Pertemuan 11
43 halaman
Pandas
Belum ada peringkat
Pandas
17 halaman
LPR Minggu Ke 4
Belum ada peringkat
LPR Minggu Ke 4
43 halaman
Laporan "Fundamental Data Analysis With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
Belum ada peringkat
Laporan "Fundamental Data Analysis With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
9 halaman
Makalah 2 Analisis Data - Salsabila Indah Lonisa - 21037074
Belum ada peringkat
Makalah 2 Analisis Data - Salsabila Indah Lonisa - 21037074
10 halaman
Analisis Menggunakan Python
Belum ada peringkat
Analisis Menggunakan Python
2 halaman
Praktikum 1 Pembelajaran Mesin
Belum ada peringkat
Praktikum 1 Pembelajaran Mesin
8 halaman
G1F021046 - Andro Yesaya Toar - Laporan 2 Data Mining
Belum ada peringkat
G1F021046 - Andro Yesaya Toar - Laporan 2 Data Mining
24 halaman
Modul Bahan Ajar Slide - Modul 04 - Pertemuan 04 - PK2
Belum ada peringkat
Modul Bahan Ajar Slide - Modul 04 - Pertemuan 04 - PK2
60 halaman
01-Introduction To Python For Data Analysis
Belum ada peringkat
01-Introduction To Python For Data Analysis
12 halaman
Pertemuan 4 Ai
Belum ada peringkat
Pertemuan 4 Ai
31 halaman
Laporan Tugas Besar 2 Kel-3
Belum ada peringkat
Laporan Tugas Besar 2 Kel-3
14 halaman
Ulangan Bab Analisa Data Dengan Python
Belum ada peringkat
Ulangan Bab Analisa Data Dengan Python
4 halaman
Komputasi DescriptiveAnalyticsStatistics
Belum ada peringkat
Komputasi DescriptiveAnalyticsStatistics
29 halaman
Data Understanding 2
Belum ada peringkat
Data Understanding 2
8 halaman
Tubes Komputasi 2
Belum ada peringkat
Tubes Komputasi 2
25 halaman
Certan-W13S03 - Data Science Python
Belum ada peringkat
Certan-W13S03 - Data Science Python
9 halaman
Data Analyst 1
Belum ada peringkat
Data Analyst 1
28 halaman
Tutorial Dasar NumPy Python
0% (1)
Tutorial Dasar NumPy Python
37 halaman
Introduction and Basic Statistical With Python
Belum ada peringkat
Introduction and Basic Statistical With Python
16 halaman
Pertemuan 2 Data Science
Belum ada peringkat
Pertemuan 2 Data Science
9 halaman
Python For Data Analytics (Buku Ajar)
Belum ada peringkat
Python For Data Analytics (Buku Ajar)
7 halaman
Rangkuman
Belum ada peringkat
Rangkuman
5 halaman
Pertemuan - 3. Teori Pendukung Machine Learning
Belum ada peringkat
Pertemuan - 3. Teori Pendukung Machine Learning
20 halaman
Data Wrangling
Belum ada peringkat
Data Wrangling
12 halaman
Modul 1 Import Data
Belum ada peringkat
Modul 1 Import Data
4 halaman
Modul Bahan Ajar Slide - Modul 03 - Pertemuan 03 - PK2
Belum ada peringkat
Modul Bahan Ajar Slide - Modul 03 - Pertemuan 03 - PK2
71 halaman
Uas Big Data
Belum ada peringkat
Uas Big Data
6 halaman
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
Belum ada peringkat
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
11 halaman
Pertemuan 7 - Pandas
Belum ada peringkat
Pertemuan 7 - Pandas
35 halaman
Statistic Using Python For Data Science
Belum ada peringkat
Statistic Using Python For Data Science
27 halaman
Lab 6 - Pandas - Ipynb - Colab
Belum ada peringkat
Lab 6 - Pandas - Ipynb - Colab
9 halaman
Fikri - Library Pandas Python
Belum ada peringkat
Fikri - Library Pandas Python
12 halaman
M12 DS25-Python Dan Library Data Science
Belum ada peringkat
M12 DS25-Python Dan Library Data Science
48 halaman
Tugas 1 Pak Haris
Belum ada peringkat
Tugas 1 Pak Haris
4 halaman
Module, Package, & Library
Belum ada peringkat
Module, Package, & Library
38 halaman
Tugas Data Minning - Exca Wella Monica
Belum ada peringkat
Tugas Data Minning - Exca Wella Monica
17 halaman
FaizAlbarRisi 4221901042 MachineLearning 3
Belum ada peringkat
FaizAlbarRisi 4221901042 MachineLearning 3
7 halaman
2A 2010631250003 AlpinApriliansyahMohsaa
Belum ada peringkat
2A 2010631250003 AlpinApriliansyahMohsaa
21 halaman
Library Numpy
Belum ada peringkat
Library Numpy
16 halaman
26-Ramadhan Pratama-XII SIJA A-VISUALISASI DATA PYTHON DENGAN LIBRARY MATPLOTLIB
Belum ada peringkat
26-Ramadhan Pratama-XII SIJA A-VISUALISASI DATA PYTHON DENGAN LIBRARY MATPLOTLIB
6 halaman
Tugas Data Set
Belum ada peringkat
Tugas Data Set
3 halaman
Python Data Processing - Stephanie
Belum ada peringkat
Python Data Processing - Stephanie
36 halaman
Modul 8 Praktikum Pandas
Belum ada peringkat
Modul 8 Praktikum Pandas
15 halaman
KU1072 1 DeskripsiProyek2 PY
Belum ada peringkat
KU1072 1 DeskripsiProyek2 PY
3 halaman
LAPORAN
Belum ada peringkat
LAPORAN
11 halaman
VadilaMP 2006700006 ML
Belum ada peringkat
VadilaMP 2006700006 ML
4 halaman
Laporan Data Science Khoirur Rifqi 140 5c
Belum ada peringkat
Laporan Data Science Khoirur Rifqi 140 5c
100 halaman
Basis Data
Belum ada peringkat
Basis Data
106 halaman
Data Profiling
Belum ada peringkat
Data Profiling
13 halaman
Pembelajaran Machine Learning
Belum ada peringkat
Pembelajaran Machine Learning
7 halaman
2B - 2010631250046 - Fery Anuar
Belum ada peringkat
2B - 2010631250046 - Fery Anuar
21 halaman
Emansipasi Bangsa Israel
Belum ada peringkat
Emansipasi Bangsa Israel
25 halaman
4 Hal Tentang Rizki
Belum ada peringkat
4 Hal Tentang Rizki
1 halaman
Biografi Abu Hurairah
Belum ada peringkat
Biografi Abu Hurairah
5 halaman
Row FlexGrid Berwarna Selang Seling VB6
Belum ada peringkat
Row FlexGrid Berwarna Selang Seling VB6
7 halaman
Ca3a9814d7 903097143
Belum ada peringkat
Ca3a9814d7 903097143
160 halaman
Studi Kasus Macro VBA
Belum ada peringkat
Studi Kasus Macro VBA
4 halaman
7997
Belum ada peringkat
7997
171 halaman
Tes Potensi Akademik (TPA)
Belum ada peringkat
Tes Potensi Akademik (TPA)
41 halaman
Contoh Dasar Penggunaan Fungsi String
Belum ada peringkat
Contoh Dasar Penggunaan Fungsi String
4 halaman
Index Dan Catatan - Sejarah Dunia
Belum ada peringkat
Index Dan Catatan - Sejarah Dunia
27 halaman
Pesan Cinta Untuk Anakku PDF
Belum ada peringkat
Pesan Cinta Untuk Anakku PDF
221 halaman
27 Perang Zaman Nabi
Belum ada peringkat
27 Perang Zaman Nabi
6 halaman
Tafsir Juz Amma
Belum ada peringkat
Tafsir Juz Amma
216 halaman
Modul Wordpress Untuk Pemula - 2020
Belum ada peringkat
Modul Wordpress Untuk Pemula - 2020
40 halaman
SejarahRevolusiIndustridari1 0sampai4 0
Belum ada peringkat
SejarahRevolusiIndustridari1 0sampai4 0
7 halaman
Modul Kisah2 Teladan
Belum ada peringkat
Modul Kisah2 Teladan
79 halaman
Pemikiran Pendidikan Islam KH. Ahmad Dahlan
Belum ada peringkat
Pemikiran Pendidikan Islam KH. Ahmad Dahlan
126 halaman
E Ensiklopedia Pengobatan Islam Berbasis
Belum ada peringkat
E Ensiklopedia Pengobatan Islam Berbasis
6 halaman
Tahlilan - Muhammadiyah, NU Dan Salafy
Belum ada peringkat
Tahlilan - Muhammadiyah, NU Dan Salafy
2 halaman
Kiprah Kh. Hasyim Asy'Ari Dalam Mengembangkan Pendidikan Agama Islam
Belum ada peringkat
Kiprah Kh. Hasyim Asy'Ari Dalam Mengembangkan Pendidikan Agama Islam
14 halaman
8790 28327 6 PB
Belum ada peringkat
8790 28327 6 PB
19 halaman
Karakteristik Kafir
Belum ada peringkat
Karakteristik Kafir
90 halaman