0% menganggap dokumen ini bermanfaat (0 suara)
296 tayangan

Pandas

Pandas merupakan modul Python yang berfokus pada manipulasi dan analisis data. Ia memiliki struktur data DataFrame yang memudahkan pengolahan data dalam bentuk tabel. DataFrame dapat dibuat, dibaca, dan diolah untuk berbagai tujuan seperti pembersihan, visualisasi, dan ekstraksi informasi penting dari data.

Diunggah oleh

cosmasharyawan
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
296 tayangan

Pandas

Pandas merupakan modul Python yang berfokus pada manipulasi dan analisis data. Ia memiliki struktur data DataFrame yang memudahkan pengolahan data dalam bentuk tabel. DataFrame dapat dibuat, dibaca, dan diolah untuk berbagai tujuan seperti pembersihan, visualisasi, dan ekstraksi informasi penting dari data.

Diunggah oleh

cosmasharyawan
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 17

PANDAS

(PYTHON MODULE)
Data Engineering

Ref :
https://pandas.pydata.org/pandas-docs/stable/reference/index.html

https://www.learndatasci.com/tutorials/python-pandas-tutorial-
complete-introduction-for-beginners/
Tools
• Menggunakan Python untuk melakukan proses Extract
• Memanfaatkan Module
• pandas
• csv
• Mysql
• Xlrd
• Dan lain-lain
Pandas
• “Pandas is derived from the term "panel data", an
econometrics term for data sets that include observations
over multiple time periods for the same individuals. —
Wikipedia”
• Pandas adalah sebuah librari berlisensi BSD dan open
source yang menyediakan struktur data dan analisis data
yang mudah digunakan dan berkinerja tinggi untuk
bahasa pemrograman Python
• librari analisis data yang memiliki struktur data yang
diperlukan untuk mengkonversi data mentah ke dalam
bentuk/format tabel sehingga memudahkan untuk analisis
DataFrame
• Struktur data dasar pandas dinamakan DataFrame
• koleksi kolom berurutan dengan bentuk sebuah tabel
yang tampak seperti database dimana sebuah baris
tunggal mewakili sebuah data tunggal dan kolom mewakili
atribut tertentu
• Dengan adanya fitur dataframe memudahkan untuk
membaca sebuah file dan menjadikannya table
Apa yang bisa dilakukan Pandas?
• Read from and write to CSV, other file and databases
• Calculate statistics and answer questions about the data,
likeWhat's the average, median, max, or min of each
column?
• Does column A correlate with column B?
• What does the distribution of data in column C look like?
• Clean the data by doing things like removing missing
values and filtering rows or columns by some
criteriaVisualize the data with help from Matplotlib. Plot
bars, lines, histograms, bubbles, and more
• kita juga dapat mengolah data dengan menggunakan
operasi seperti join, distinct, group by, agregasi, dan
teknik lainnya yang terdapat pada SQL.
Install dan Import
• Install :
• conda install pandas
• atau
• pip install pandas
• Jika akan menggunakan di dalam program, perlu
dilakukan import :
• import pandas
• Atau biasanya untuk menyingkat penulisan saat diakses, maka
diberi nama alias, misalnya “pd”
• import pandas as pd
Komponen Utama Pandas
• Series dan Dataframe
• Series adalah suatu kolom
• Dataframe adalah kumpulan series, dapat berupa tabel
multidimensi
Pembuatan dataframe
• Dataframe dapat terbentuk berasal dari hasil pembacaan
data atau bisa juga dibuat sendiri (created from the
scratch)
• Banyak cara untuk membuat dataframe, cara paling
sederhana adalah dengan menggunakan struktur data
dict dalam python
• Contoh :
• Misal akan dibuat dataframe penjualan apple dan orange
• Kolom berisi jenis buah, sedangkan setiap baris berisi besarnya
penjualan
Pembuatan...
data = {
'apples': [3, 2, 0, 1],
'oranges': [0, 3, 7, 2]
}
purchases = pd.DataFrame(data)
print(purchases)
• Setiap (key, value) item di data terhubung dengan column
dalam hasil akhir DataFrame.
• Index di DataFrame ini otomatis terbentuk berupa angka
0-3,
Pembuatan...
• Penambahan index sesuai keinginan kita:
purchases = pd.DataFrame(data,
index=['June', 'Robert', 'Lily', 'David'])

• Sehingga menjadi mudah diakses :


print(purchases.loc['Robert'])
• Output :
apples 2
oranges 3
Name: Robert, dtype: int64
Baca Data
• df = pd.read_csv('purchases.csv')

• Tanpa index otomatis


• df = pd.read_csv('purchases.csv', index_col=0)
• Baca JSON :
• df = pd.read_json('purchases.json')
• Baca Excell
• df1 = pd.read_excel("mhs.xlsx", sheet_name='mahasiswa')
Read Excell
Import pandas as pd
df1 = pd.read_excel(file_excel,
sheet_name=‘nama_atau_nomor_sheet')

Misal :
df1 = pd.read_excel(“data.xlsx")  ambil sheet pertama

df1 = pd.read_excel(“data.xlsx",
sheet_name=‘barang')  ambil sheet “barang”
df1 = pd.read_excel(“data.xlsx", sheet_name=0) 
ambil sheet pertama
Fungsi lain
• df.head()  pengambilan 5 data pertama
• df.head(10)  pengambilan 10 data pertama
• df.tail(8)  pengambilan 8 data terakhir
• df.columns  menampilkan nama kolom
• df[[„nama', „alamat']]  pilih kolom tertentu
• Mengacu ke data sebelumnya :
• purchases["oranges"].min()  data terkecil
• purchases["oranges"].max)  data terbesar
• purchases["oranges"].mean()  rata-rata
• purchases["oranges"].sum()  jumlah
• purchases["oranges"].count()  cacah
• purchases[purchases['oranges'] == 3]  filter data
Operator Logical
• logical operators | untuk "or" dan & untuk "and".
df[(df[‘jur'] == ‘SI') | (df[‘jur'] == ‘TI')].head()

• Penggunaan isin
df[df[‘jur'].isin([‘SI', ‘TI'])].head()

• Jika diinginkan mahasiswa jurusan SI atau TI dan IPK < 3


df[((df[‘jur’] == ‘SI’ ) | (df[‘jur’] == ‘TI’ )) &
(df[‘IPK’] < 3 ))]
Penambahan Kolom Baru
df = pd.DataFrame({'celcius': [17.0, 25.0]},
index=['Bantul', 'Sleman'])

• Ditambahkan kolom fahrenheit :


df = df.assign(fah=df['celcius'] * 9 / 5 + 32)

• Dengan lambda function:


df = df.assign(rea=lambda x: x.celcius * 4 / 5)
Apply Function
df = pd.DataFrame({'nama':['andi', 'rudi', 'siti', 'ani'],
• 'ipk':[2.3,3.1,1.8,2.9]})

• Ditambah fungsi :

• Apply function ke assign (untuk tambah kolom)


• df = df.assign(status = df['ipk'].apply(group_nilai))
Join 2 dataframe

Anda mungkin juga menyukai