0% menganggap dokumen ini bermanfaat (0 suara)
6 tayangan

Explory Data Analys With Python

Diunggah oleh

refky
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai TXT, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
6 tayangan

Explory Data Analys With Python

Diunggah oleh

refky
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai TXT, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 4

# Library Pandas

Pandas merupakan library yang memudahkan dalam melakukan manipulasi, cleansing


maupun analisis struktur data. Dengan menggunakan Pandas, dapat memanfaatkan lima
fitur utama dalam pemrosesan dan analisis data, yaitu load, prepare, manipulate,
modelling, dan analysis data.
Pandas menggunakan konsep array dari NumPy namun memberikan index kepada array
tersebut, sehingga disebut series ataupun data frame. Sehingga bisa dikatakan
Pandas menyimpan data dalam dictionary-based NumPy arrays. 1-Dimensi labelled array
dinamakan sebagai Series.
Sedangkan 2-Dimensi dinamakan sebagai Data Frame.

# Library SciPy

Scipy dibangun untuk bekerja dengan array NumPy dan menyediakan banyak komputasi
numerik yang ramah pengguna dan efisien seperti rutinitas untuk integrasi,
diferensiasi dan optimasi numerik.
Baik NumPy maupun SciPy berjalan pada semua operating system, cepat untuk diinstall
dan gratis. NumPy dan SciPy mudah digunakan, tetapi cukup kuat untuk diandalkan
oleh beberapa data scientist dan researcher terkemuka dunia.

# Library Matplotlib

Matplotlib merupakan library dari Python yang umum digunakan untuk visualisasi
data. Matplotlib memiliki kapabilitas untuk membuat visualisasi data 2-dimensional.
Contoh visualisasi yang dapat dibuat dengan menggunakan matplotlib diantaranya
adalah

Line chart
Bar chart
Pie chart
Box plot chart
Violin chart
Errorbar chart
Scatter chart

Jenis-jenis chart lainnya juga dapat dibuat melalui library ini.

# Quiz

Karyawan A mendapatkan tugas dari karyawan B untuk membuat summary dari hasil
dataset penjualan di e-commerce ABC, dimana order dataset tersebut disimpan di CSV
file. Namun karyawan A memiliki kesulitan dalam melakukan proses loading dataset
tersebut ke dalam Python.
Library dari Python manakah yang dapat direkomendasikan kepada karyawan A?
jawabannya pandas

# Memanggil library di Python

Sebelum dapat digunakan, library tersebut harus terlebih dahulu dipanggil ke dalam
lingkungan Python. Command untuk memanggil library di Python menggunakan syntax
(menggunakan huruf kecil):
Alias berfungsi sebagai pengganti nama library, sehingga menghemat komputasi saat
function dari library tersebut dipanggil.
# Tugas Praktek

Cobalah untuk mengimport library numpy dan pandas menggunakan alias np dan pd
masing-masingnya.

import numpy as np
import pandas as pd

# Tugas Praktek

Cobalah untuk mengimport dataset marketplace ABC dari order.csv dan disimpan ke
dalam dataframe bernama order_df.

import pandas as pd
order_df = pd.read_csv("order.csv")

# Inspeksi struktur data frame

Setelah melakukan proses loading dataframe ke dalam Python. Hal selanjutnya sebelum
memulai analisis tentunya mengerti struktur dataset tersebut. Sehingga langkah
selanjutnya dari pre - analisis biasanya dilakukan untuk:

melihat struktur data frame,


melihat preview data dari dataframe tersebut, dan
membuat summary data sederhana dari datase

# Melihat struktur kolom dan baris dari data frame

Hal pertama dalam mengerti struktur dari dataframe adalah informasi mengenai berapa
size dari dataframe yang akan digunakan termasuk berapa jumlah kolom dan jumlah
baris data frame tersebut.

Dalam kasus ini, aku dapat menggunakan fungsi .shape pada suatu dataframe

Notes : untuk dataset diinput dari link berikut


"https://storage.googleapis.com/dqlab-dataset/order.csv".

# Melihat struktur kolom dan baris dari data frame

Hal pertama dalam mengerti struktur dari dataframe adalah informasi mengenai berapa
size dari dataframe yang akan digunakan termasuk berapa jumlah kolom dan jumlah
baris data frame tersebut.

Dalam kasus ini, aku dapat menggunakan fungsi .shape pada suatu dataframe

# Tugas Praktek

Cobalah untuk order dataframe dengan menuliskan syntax Python untuk melihat
struktur dari order_df dengan menggunakan fungsi shape!

import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.shape)

# Melihat preview data dari data frame


Selanjutnya, untuk mendapatkan gambaran dari konten dataframe tersebut. Kita dapat
menggunakan function head dan tail,
# menampilkan konten teratas dari [nama_dataframe]
print([nama_datframe].head([jumlah_data])

#menampilkan konten terbawah dari [nama_dataframe]


print([nama_dataframe].tail([jumlah_data])

# Tugas Praktek

Cobalah untuk check bagaimana contoh data dari dataframe tersebut dengan fungsi
head dengan limit 10 baris!

import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.head(10))

order_id ... product_weight_gram


0 2e7a8482f6fb09756ca50c10d7bfc047 ... 1800.0
1 2e7a8482f6fb09756ca50c10d7bfc047 ... 1400.0
2 e5fa5a7210941f7d56d0208e4e071d35 ... 700.0
3 3b697a20d9e427646d92567910af6d57 ... 300.0
4 71303d7e93b399f5bcd537d124c0bcfa ... 500.0
5 be5bc2f0da14d8071e2d45451ad119d9 ... 400.0
6 0a0837a5eee9e7a9ce2b1fa831944d27 ... 3100.0
7 1ff217aa612f6cd7c4255c9bfe931c8b ... 200.0
8 22613579f7d11cc59c4347526fc3c79e ... 600.0
9 356b492aba2d1a7da886e54e0b6212b7 ... 610.0

# Statistik Deskriptif dari Data Frame - Part 1

Statistik deskriptif atau summary dalam Python - Pandas, dapat diperoleh dengan
menggunakan fungsi describe(), yaitu:
print([nama_dataframe]).describe())
Function describe dapat memberikan informasi mengenai nilai rataan, standar deviasi
dan IQR (interquartile range).

Ketentuan umum:

Secara umum function describe() akan secara otomatis mengabaikan kolom category
dan hanya memberikan summary statistik untuk kolom berjenis numerik.
Kita perlu menambahkan argument bernama include = "all" untuk mendapatkan
summary statistik atau statistik deskriptif dari kolom numerik dan karakter.
yaitu
print([nama_dataframe].describe(include="all"))

#TUGAS PRAKTIK

import pandas as pd
order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
# Quick summary dari segi kuantitas, harga, freight value, dan weight
print(order_df.describe())
# Median dari total pembelian konsumen per transaksi kolom price
print(order_df.loc[:, "price"].median())
quantity price freight_value product_weight_gram
count 49999.000000 4.999900e+04 49999.000000 49980.000000
mean 1.197484 2.607784e+06 104521.390428 2201.830892
std 0.722262 1.388312e+06 55179.844962 3929.896875
min 1.000000 2.000000e+05 9000.000000 50.000000
25% 1.000000 1.410500e+06 57000.000000 300.000000
50% 1.000000 2.610000e+06 104000.000000 800.000000
75% 1.000000 3.810000e+06 152000.000000 1850.000000
max 21.000000 5.000000e+06 200000.000000 40425.000000
2610000.0

Anda mungkin juga menyukai