0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
43 tayangan21 halaman
Python Training 4
Modul ini membahas pengolahan dan analisis data dengan Python Pandas. Modul Pandas digunakan untuk membangun struktur data Series dan DataFrame serta melakukan manipulasi, analisis statistik deskriptif, dan visualisasi data. Dokumen ini juga menjelaskan tugas akhir yang melibatkan impor data, analisis statistik, korelasi, dan visualisasi data serta ekspor hasil analisis ke berbagai format file.
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
43 tayangan21 halaman
Python Training 4
Modul ini membahas pengolahan dan analisis data dengan Python Pandas. Modul Pandas digunakan untuk membangun struktur data Series dan DataFrame serta melakukan manipulasi, analisis statistik deskriptif, dan visualisasi data. Dokumen ini juga menjelaskan tugas akhir yang melibatkan impor data, analisis statistik, korelasi, dan visualisasi data serta ekspor hasil analisis ke berbagai format file.
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 21
Dasar-dasar pengolahan dan
analisis data dengan Pandas
Esa A. Asyahid Laboratorium Ilmu Ekonomi FEB UGM Referensi • McKinney, W., 2012. Python for data analysis: Data wrangling with Pandas, NumPy, and IPython. " O'Reilly Media, Inc.". Materi sebelumnya • Dictionaries • Module • Manipulasi spreadsheet Excel Outline • Modul pandas untuk pengolahan dan analisis data • Struktur data: Series dan DataFrame • Import dan export data • Statistik deskriptif • Visualisasi data dasar Module pandas • Module pandas (singkatan dari Python Data Analysis Library) adalah modul yang berisi tools untuk membangun struktur data serta melakukan olah dan analysis data. • pandas merupakan salah satu modul utama Python untuk analisis data, dan umumnya digunakan bersamaan dengan numpy dan scipy (analisis numerik), statsmodels dan scikit-learn (modeling), matplotlib (visualisasi). • pandas umumnya disingkat pd • import pandas as pd Struktur data: Series dan DataFrame • Series: satu kolom • DataFrame: data tabular (baris dan kolom) • Keduanya memiliki index Praktik: Series • Gunakan praktik1.py Praktik: DataFrame • Gunakan praktik2.py Bitwise operators • Operator (logika) bitwise adalah operator logika yang bekerja di level bits (binary numbers). Serupa dengan operator logika yang bekerja di level Boolean values. Impor data dari format lain • Pandas menyediakan berbagai functions untuk mengimpor dataset dari berbagai format: Ekspor data ke format lain • Ekspor DataFrame ke format CSV dilakukan dengan method to_csv • Ekspor DataFrame ke format Excel dilakukan dengan method to_excel Praktik: Impor dan ekspor data • CSV: Gunakan praktik3.py • Excel: Gunakan praktik4.py Statistik Deskriptif • Statistik deskriptif dapat dihasilkan menggunakan methods terhadap DataFrame atau Series Statistik Deskriptif Korelasi • Statistik deskriptif dapat dihasilkan menggunakan method corr() terhadap DataFrame Praktik: Statistik Deskriptif dan Korelasi • Gunakan praktik5.py Visualisasi Data • Module dasar Python untuk visualisasi data adalah matplotlib. • Pandas memiliki kemampuan integrasi dengan matplotlib, sehingga kita bisa secara langsung melakukan visualisasi data dari Series atau DataFrame. • Pastikan matplotlib telah terinstall dan diimport. Visualisasi Data • Jenis-jenis plot dasar: • ‘line’ : line plot (default) • ‘bar’ : vertical bar plot • ‘barh’ : horizontal bar plot • ‘hist’ : histogram • ‘box’ : boxplot • ‘kde’ : Kernel Density Estimation plot • ‘density’ : same as ‘kde’ • ‘area’ : area plot • ‘pie’ : pie plot • ‘scatter’ : scatter plot • ‘hexbin’ : hexbin plot Praktik: Visualisasi Data • Gunakan praktik6.py Tugas Gunakan dataset tips.csv. Dataset ini berisi catatan tip yang diberikan oleh pelanggan suatu restoran beserta informasi lainnya. Buatlah script Python yang melakukan hal berikut: 1. Import dataset tersebut menjadi DataFrame 2. Buatlah variable baru tip_perbill berupa rasio tip terhadap total_bill 3. Carilah nilai rata-rata, median, dan deviasi standar dari tip, total_bill, dan tip_perbill 4. Carilah rata-rata nilai tip dan tip_perbill untuk waktu dinner vs lunch dan smoker vs non- smoker. Manakah tip dan tip_perbill yang lebih tinggi dari kelompok-kelompok tersebut? 5. Carilah nilai korelasi total_bill dengan tip dan total_bill dengan size ( jumlah orang dalam satu rombongan). 6. Buat scatterplot untuk kedua korelasi di atas. 7. Buatlah DataFrame baru berisi masing-masing subset dari dataset utama untuk day yang berbeda-beda. Ekspor masing-masing dataset ini dalam format Excel (Thur.xlsx, Fri.xlsx, Sat.xlsx, dan Sun.xlsx) Tugas • Kirim script Python ke [email protected] dengan subjek Tugas Python 4_Nama lengkap_NIM maksimal Senin 6 Juni 2022 pukul 23.59.