Pandas
Pandas
(PYTHON MODULE)
Data Engineering
Ref :
https://pandas.pydata.org/pandas-docs/stable/reference/index.html
https://www.learndatasci.com/tutorials/python-pandas-tutorial-
complete-introduction-for-beginners/
Tools
• Menggunakan Python untuk melakukan proses Extract
• Memanfaatkan Module
• pandas
• csv
• Mysql
• Xlrd
• Dan lain-lain
Pandas
• “Pandas is derived from the term "panel data", an
econometrics term for data sets that include observations
over multiple time periods for the same individuals. —
Wikipedia”
• Pandas adalah sebuah librari berlisensi BSD dan open
source yang menyediakan struktur data dan analisis data
yang mudah digunakan dan berkinerja tinggi untuk
bahasa pemrograman Python
• librari analisis data yang memiliki struktur data yang
diperlukan untuk mengkonversi data mentah ke dalam
bentuk/format tabel sehingga memudahkan untuk analisis
DataFrame
• Struktur data dasar pandas dinamakan DataFrame
• koleksi kolom berurutan dengan bentuk sebuah tabel
yang tampak seperti database dimana sebuah baris
tunggal mewakili sebuah data tunggal dan kolom mewakili
atribut tertentu
• Dengan adanya fitur dataframe memudahkan untuk
membaca sebuah file dan menjadikannya table
Apa yang bisa dilakukan Pandas?
• Read from and write to CSV, other file and databases
• Calculate statistics and answer questions about the data,
likeWhat's the average, median, max, or min of each
column?
• Does column A correlate with column B?
• What does the distribution of data in column C look like?
• Clean the data by doing things like removing missing
values and filtering rows or columns by some
criteriaVisualize the data with help from Matplotlib. Plot
bars, lines, histograms, bubbles, and more
• kita juga dapat mengolah data dengan menggunakan
operasi seperti join, distinct, group by, agregasi, dan
teknik lainnya yang terdapat pada SQL.
Install dan Import
• Install :
• conda install pandas
• atau
• pip install pandas
• Jika akan menggunakan di dalam program, perlu
dilakukan import :
• import pandas
• Atau biasanya untuk menyingkat penulisan saat diakses, maka
diberi nama alias, misalnya “pd”
• import pandas as pd
Komponen Utama Pandas
• Series dan Dataframe
• Series adalah suatu kolom
• Dataframe adalah kumpulan series, dapat berupa tabel
multidimensi
Pembuatan dataframe
• Dataframe dapat terbentuk berasal dari hasil pembacaan
data atau bisa juga dibuat sendiri (created from the
scratch)
• Banyak cara untuk membuat dataframe, cara paling
sederhana adalah dengan menggunakan struktur data
dict dalam python
• Contoh :
• Misal akan dibuat dataframe penjualan apple dan orange
• Kolom berisi jenis buah, sedangkan setiap baris berisi besarnya
penjualan
Pembuatan...
data = {
'apples': [3, 2, 0, 1],
'oranges': [0, 3, 7, 2]
}
purchases = pd.DataFrame(data)
print(purchases)
• Setiap (key, value) item di data terhubung dengan column
dalam hasil akhir DataFrame.
• Index di DataFrame ini otomatis terbentuk berupa angka
0-3,
Pembuatan...
• Penambahan index sesuai keinginan kita:
purchases = pd.DataFrame(data,
index=['June', 'Robert', 'Lily', 'David'])
Misal :
df1 = pd.read_excel(“data.xlsx") ambil sheet pertama
df1 = pd.read_excel(“data.xlsx",
sheet_name=‘barang') ambil sheet “barang”
df1 = pd.read_excel(“data.xlsx", sheet_name=0)
ambil sheet pertama
Fungsi lain
• df.head() pengambilan 5 data pertama
• df.head(10) pengambilan 10 data pertama
• df.tail(8) pengambilan 8 data terakhir
• df.columns menampilkan nama kolom
• df[[„nama', „alamat']] pilih kolom tertentu
• Mengacu ke data sebelumnya :
• purchases["oranges"].min() data terkecil
• purchases["oranges"].max) data terbesar
• purchases["oranges"].mean() rata-rata
• purchases["oranges"].sum() jumlah
• purchases["oranges"].count() cacah
• purchases[purchases['oranges'] == 3] filter data
Operator Logical
• logical operators | untuk "or" dan & untuk "and".
df[(df[‘jur'] == ‘SI') | (df[‘jur'] == ‘TI')].head()
• Penggunaan isin
df[df[‘jur'].isin([‘SI', ‘TI'])].head()
• Ditambah fungsi :