0% menganggap dokumen ini bermanfaat (0 suara)
43 tayangan21 halaman

Python Training 4

Modul ini membahas pengolahan dan analisis data dengan Python Pandas. Modul Pandas digunakan untuk membangun struktur data Series dan DataFrame serta melakukan manipulasi, analisis statistik deskriptif, dan visualisasi data. Dokumen ini juga menjelaskan tugas akhir yang melibatkan impor data, analisis statistik, korelasi, dan visualisasi data serta ekspor hasil analisis ke berbagai format file.

Diunggah oleh

masesa1
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
43 tayangan21 halaman

Python Training 4

Modul ini membahas pengolahan dan analisis data dengan Python Pandas. Modul Pandas digunakan untuk membangun struktur data Series dan DataFrame serta melakukan manipulasi, analisis statistik deskriptif, dan visualisasi data. Dokumen ini juga menjelaskan tugas akhir yang melibatkan impor data, analisis statistik, korelasi, dan visualisasi data serta ekspor hasil analisis ke berbagai format file.

Diunggah oleh

masesa1
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 21

Dasar-dasar pengolahan dan

analisis data dengan Pandas


Esa A. Asyahid
Laboratorium Ilmu Ekonomi FEB UGM
Referensi
• McKinney, W., 2012. Python for data analysis: Data wrangling
with Pandas, NumPy, and IPython. " O'Reilly Media, Inc.".
Materi sebelumnya
• Dictionaries
• Module
• Manipulasi spreadsheet Excel
Outline
• Modul pandas untuk pengolahan dan analisis data
• Struktur data: Series dan DataFrame
• Import dan export data
• Statistik deskriptif
• Visualisasi data dasar
Module pandas
• Module pandas (singkatan dari Python Data Analysis Library) adalah
modul yang berisi tools untuk membangun struktur data serta
melakukan olah dan analysis data.
• pandas merupakan salah satu modul utama Python untuk analisis
data, dan umumnya digunakan bersamaan dengan numpy dan
scipy (analisis numerik), statsmodels dan scikit-learn (modeling),
matplotlib (visualisasi).
• pandas umumnya disingkat pd
• import pandas as pd
Struktur data: Series dan DataFrame
• Series: satu kolom
• DataFrame: data tabular (baris dan kolom)
• Keduanya memiliki index
Praktik: Series
• Gunakan praktik1.py
Praktik: DataFrame
• Gunakan praktik2.py
Bitwise operators
• Operator (logika) bitwise adalah operator logika yang bekerja di
level bits (binary numbers). Serupa dengan operator logika yang
bekerja di level Boolean values.
Impor data dari format lain
• Pandas menyediakan berbagai functions untuk mengimpor dataset
dari berbagai format:
Ekspor data ke format lain
• Ekspor DataFrame ke format CSV dilakukan dengan method to_csv
• Ekspor DataFrame ke format Excel dilakukan dengan method
to_excel
Praktik: Impor dan ekspor data
• CSV: Gunakan praktik3.py
• Excel: Gunakan praktik4.py
Statistik Deskriptif
• Statistik deskriptif dapat dihasilkan menggunakan methods terhadap
DataFrame atau Series
Statistik Deskriptif
Korelasi
• Statistik deskriptif dapat dihasilkan menggunakan method corr()
terhadap DataFrame
Praktik: Statistik Deskriptif dan Korelasi
• Gunakan praktik5.py
Visualisasi Data
• Module dasar Python untuk visualisasi data adalah matplotlib.
• Pandas memiliki kemampuan integrasi dengan matplotlib, sehingga
kita bisa secara langsung melakukan visualisasi data dari Series atau
DataFrame.
• Pastikan matplotlib telah terinstall dan diimport.
Visualisasi Data
• Jenis-jenis plot dasar:
• ‘line’ : line plot (default)
• ‘bar’ : vertical bar plot
• ‘barh’ : horizontal bar plot
• ‘hist’ : histogram
• ‘box’ : boxplot
• ‘kde’ : Kernel Density Estimation plot
• ‘density’ : same as ‘kde’
• ‘area’ : area plot
• ‘pie’ : pie plot
• ‘scatter’ : scatter plot
• ‘hexbin’ : hexbin plot
Praktik: Visualisasi Data
• Gunakan praktik6.py
Tugas
Gunakan dataset tips.csv. Dataset ini berisi catatan tip yang diberikan oleh pelanggan
suatu restoran beserta informasi lainnya. Buatlah script Python yang melakukan hal
berikut:
1. Import dataset tersebut menjadi DataFrame
2. Buatlah variable baru tip_perbill berupa rasio tip terhadap total_bill
3. Carilah nilai rata-rata, median, dan deviasi standar dari tip, total_bill, dan tip_perbill
4. Carilah rata-rata nilai tip dan tip_perbill untuk waktu dinner vs lunch dan smoker vs non-
smoker. Manakah tip dan tip_perbill yang lebih tinggi dari kelompok-kelompok tersebut?
5. Carilah nilai korelasi total_bill dengan tip dan total_bill dengan size ( jumlah orang dalam
satu rombongan).
6. Buat scatterplot untuk kedua korelasi di atas.
7. Buatlah DataFrame baru berisi masing-masing subset dari dataset utama untuk day yang
berbeda-beda. Ekspor masing-masing dataset ini dalam format Excel (Thur.xlsx, Fri.xlsx,
Sat.xlsx, dan Sun.xlsx)
Tugas
• Kirim script Python ke [email protected] dengan subjek Tugas
Python 4_Nama lengkap_NIM maksimal Senin 6 Juni 2022 pukul
23.59.

Anda mungkin juga menyukai