0% menganggap dokumen ini bermanfaat (0 suara)

74 tayangan7 halaman

Dataset

Dataset berisi informasi tentang 34 provinsi di Indonesia pada tahun 2015, termasuk curah hujan, hari hujan, pengeluaran, pengangguran, zona waktu, dan pulau. Dataset dibaca menggunakan Pandas dan ditampilkan contoh datanya. Berbagai statistik deskriptif dihitung untuk setiap kolom. Data difilter dan diurutkan berdasarkan berbagai kriteria.

Diunggah oleh

Petrus Apriliyanto

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

74 tayangan7 halaman

Dataset

Diunggah oleh

Petrus Apriliyanto

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 7

Dataset

Dataset yang akan digunakan adalah dataset yang sederhana, sehungga lebih mudah untuk
memahami Pandas. Data diambil dari Badan Pusat Statistik (bps.go.id). Dataset tersebut
memuat beberapa informasi tentang provinsi di Indonesia pada tahun 2015. Dataset ini
memiliki 10 kolom:
1. province: nama provinsi di Indonesia
2. rainfall: jumah curah hujan dalam mm yang diambil dari stasiun pengamatan yang
dimiliki BMKG
3. rainy_day: jumlah hari terjadinya hujan dalam setahun
4. expenses_food_urban: rata-rata pengeluaran perkapita dalam sebulan untuk
makanan di perkotaan
5. expenses_other_urban: rata-rata pengeluaran perkapita dalam sebulan untuk
barang non makanan di perkotaan
6. expenses_food_rural: rata-rata pengeluaran perkapita dalam sebulan untuk
makanan di pedesaan
7. expense_other_rural: rata-rata pengeluaran perkapita dalam sebulan untuk barang
non makanan di pedesaan
8. unemployment: persentase angka pengangguran bulan agustus
9. time_zone: klasifikasi zona waktu
10. island: nama pulau
Dataset dapat didownload pada github
Import Paket Pandas
Untuk menggunakan paket pandas kita harus melakukan import paket, dan memberikan
nama yang lebih pendek seperti pd, dengan menggunakan perintah import as
import pandas as pd
print('Pandas version: {}'.format(pd.__version__))
dengan perintah "version" kita dapat mengetahui versi pandas yang kita gunakan. Versi
Pandas yang digunakan pada tutorial ini adalah versi 1.1.0
Membaca File csv
Dataset yang digunakan adalah data-provinsi-2015 dataset yang telah dijelaskan
sebelumnya dan berada pada github.com/project303/dataset. File dataset ini memiliki
format text dengan tab sebagai pemisah antar kolom dan memiliki header sebagai nama
dari kolom.
Untuk membaca text file dengan delimiter menggunakan perintah read_csv().
(1)

import pandas as pd
print('Pandas version: {}'.format(pd.__version__))
url = "https://raw.githubusercontent.com/project303/dataset/master/data-
province-2015.cvs"
df = pd.read_csv(url, sep='\t')

lalu ketik semua list program highlight kuning di

bawah program berurutan
Jika file data-provinsi-2015.txt telah didownload terlebih dahulu dan berada di lokal
komputer, maka url diubah ke directory dimana file tersebut berada, misalkan
url="c:\dataset\data-provinsi-2015.txt"
Sample Data
Setelah berhasil diload ke dalam Pandas DataFrame, hal pertama yang biasa dilakukan
adalah melihat contoh. Pandas menyediakan perintah head() untuk melihat 5 baris pertama
dari DataFrame.
Program (1) + (2)

(2) demikian seterusnya list program diteruskan sampai habis yang ber highlight
kuning
df.head()

Terlihat data beserta nama kolom dapat ditampilkan dengan baik

Untuk melihat lebih banyak data, perintah head dapat diberi parameter jumlah dataframe
yang ingin ditampilkan. Sebagai contoh untuk menampilkan 10 records pertama dari
DataFrame

(3)

df.head(10)

Untuk menampilkan n record terakhir, dapat menggunakan perintah tail(n). Jika tidak diberi
parameter jumlah recordnya, maka secara default akan menampilkan 5 record

(4)
df.tail()

Fungsi sample() pada Pandas dapat digunakan jika kita ingin menampilkan dataframe
secara acak. Misalkan menampilkan 10 dataframe secara acak

(5)
df.sample(10)

Jika ingin menampilkan seluruh data yang ada dalam DataFrame

(6)
df
Jumlah Data
Untuk memperoleh informasi jumlah records pada setiap kolom menggunakan perintah
count()

(7)
df.count()

Fungsi count() akan menampilkan nama kolom dan jumlah baris/record. Seperti yang
ditampilkan, semua kolom memiliki jumlah record yang sama, yaitu 34. Ini juga berarti
bahwa tidak ada nilai null di semua kolom.

Cara lain untuk menampilkan jumlah record adalah dengan menggunakan property shape
(8)
df.shape[0]

Informasi Struktur Data

Property shape dapat digunakan untuk mengetahui dimensi dari dataframe
(9)
df.shape

Dari nilai property shape yang terlihat diatas, memberikan informasi bahwa DataFrame
memiliki 34 baris/record dan 10 kolom.
Property DataFrame lainnya adalah dtypes, yang dapat digunakan untuk melihat struktur
dari data
(10)
df.dtypes
Informasi lebih detail mengenai struktur DataFrame dapat dilihat menggunakan fungsi
info()
(11)
df.info()

Informasi Statistik
Informasi statistik untuk setiap kolom seperti nilai minimum, nilai maksimum, standar
deviasi, rata-rata dan sebagainya, dapat ditampilkan dengan mengikuti perintah berikut
(12)
df.describe(include='all')

Menampilkan Kolom
Kita dapat memilih kolom mana saja yang akan ditampilkan, yaitu dengan menyebutkan
nama kolom yang akan ditampilkan. Sebagai contoh kita hanya ingin menampilkan kolom
province, unemployment dan expenses_food_urban

(13)
df[['province', 'unemployment', 'expenses_food_urban']].head()

Memfilter Data
Salah satu bagian penting yang digunakan dalam penyiapan data dan analisis data adalah
filtering, yaitu pemilihan data dengan kriteria tertentu. Ini juga disebut data subset.
Bagi mereka yang terbiasa menggunakan SQL, ini adalah bagian dari pernyataan WHERE.
Misalnya, kami ingin menampilkan data untuk pulau yang sama dengan 'Sumatera'

(14)
df[(df.island == "Sumatera")].head()

Penggabungkan beberapa kondisi dapat menggunakan operator logika AND("&") dan

operator logika OR("|") untuk memilih baris dengan lebih dari satu kriteria.
Misalnya kita ingin menampilkan semua provinsi yang ada di pulau Sumatera dan tingkat
pengangguran kurang dari 5

(15)
df[(df.island == "Sumatera") & (df.unemployment < 5)]

Penulisan dengan cara yang berbeda tetapi memiliki hasil yang sama
(16)
df[(df['island'] == "Sumatera") & (df['unemployment'] < 5)].head()

Pada contoh di atas memiiki 2 kriteria, yaitu

11. island = 'Sumatera'
12. unemployment < 5
Penggunaan operator logika AND ("&") di atas, akan mengambil data yang cocok dengan
kedua kriteria tersebut. Jika Anda ingin mendapatkan data yang cocok hanya untuk salah
satu kriteria, dapat menggunakan operator logika OR("|")

Fungsi isin() dapat digunakan untuk memfilter kolom jika nilainya ditentukan dalam bentuk
list/daftar. Misalnya, kami ingin menampilkan provinsi di Sumatera dan pulau Kalimantan
yang memiliki tingkat pengangguran kurang dari 5

(17)
df[ (df['island'].isin(['Sumatera', 'Kalimantan']))
& (df['unemployment'] < 5)
]

Untuk penyataan negasi atau NOT menggunakan tanda '~'

(18)
df[ ~(df['island'].isin(['Sumatera', 'Kalimantan']))
& (df['unemployment'] < 5)
].head()

Hasil pernyataan diatas menunjukkan semua data yang TIDAK berada di pulau Sumatera
dan Kalimantan, dan memiliki tingkat pengangguran kurang dari 5

Jika pernyataan kondisi terlalu rumit, maka sebaiknya dibuat variable DataFrame baru
sehingga menyederhanakan proses berikutnya

(19)
df2 = df[ ~(df['island'].isin(['Sumatera', 'Kalimantan']))
& (df['unemployment'] < 5)
]
df2.sample(5)
Mengurutkan Data
Fungsi sort_values() digunakan untuk melakukan pengurutan data berdasarkan dengan
kolom yang disebutkan mulai dari nilai terkecil. Perintah berikut untuk menampilkan data
diurutkan berdasarkan kolom rainfall

(20)
df.sort_values('rainfall').head()

Atau menggunakan data yang telah difilter sebelumnya

df2.sort_values('rainfall').head(5)

Untuk mengurutkan data dimulai dari nilai terbesar, maka parameter ascending diberi nilai
False

(21)
df.sort_values('rainfall', ascending=False).head()

Jika ingin mengurutkan data dengan menggunakan lebih dari satu kolom maka perlu
ditentukan daftar nama kolom, misalkan mengurutkan berdasarkan kolom rainfall dan
rainy_day, dapat dilakukan seperti berikut
df.sort_values(['rainfall', 'rainy_day' ]).head()
pada baris 3 dan 4 terlihat data memiliki nilai rainy_day yang tidak berurut, karena telah
diurutkan berdasarkan rainfall terlebih dahulu

Setiap kolom juga dapat memiliki tipe pengurutannya masing-masing, misalkan time_zone
diurutkan secara DESC dan rainy_day secara ASC

(22)
df.sort_values(['time_zone', 'rainy_day'], ascending=[0, 1]).head(10)

ASC : mengurutkan dengan nilai terbesar lebih dahulu

DESC: mengurutkan dengan nilai terkecil lebih dahulu

Jika ingin menampilkan hanya kolom time_zone, rainy_day, province, dan island

Anda mungkin juga menyukai

Pandas Cheatsheet
Belum ada peringkat
Pandas Cheatsheet
144 halaman
Data Wrangling
Belum ada peringkat
Data Wrangling
12 halaman
Pandas
Belum ada peringkat
Pandas
18 halaman
Pandas
Belum ada peringkat
Pandas
17 halaman
Pertemuan 7 - Pandas
Belum ada peringkat
Pertemuan 7 - Pandas
35 halaman
BAB 4 - Data Wrangling Python
Belum ada peringkat
BAB 4 - Data Wrangling Python
9 halaman
Pertemuan 11
Belum ada peringkat
Pertemuan 11
43 halaman
Exploratory Data Analysis
Belum ada peringkat
Exploratory Data Analysis
26 halaman
Tugas Besar Pengenalan Komputasi
Belum ada peringkat
Tugas Besar Pengenalan Komputasi
24 halaman
Tugas Laporan - 211045 WINDA PAGASING
Belum ada peringkat
Tugas Laporan - 211045 WINDA PAGASING
7 halaman
Pandas
Belum ada peringkat
Pandas
39 halaman
DQlab - 2 HTTPSWWW - Youtube.comwatchv DgAqCuQW1Zc
Belum ada peringkat
DQlab - 2 HTTPSWWW - Youtube.comwatchv DgAqCuQW1Zc
39 halaman
Laporan Tubes 2 PTI
100% (1)
Laporan Tubes 2 PTI
12 halaman
19.3.1 Pengenalan DataFrame Dan SQL Spark
Belum ada peringkat
19.3.1 Pengenalan DataFrame Dan SQL Spark
7 halaman
Pertemuan 2 Data Science
Belum ada peringkat
Pertemuan 2 Data Science
9 halaman
Praktikum Final Leondry Yehezkiel Anthony 5c
Belum ada peringkat
Praktikum Final Leondry Yehezkiel Anthony 5c
11 halaman
Komputasi DescriptiveAnalyticsStatistics
Belum ada peringkat
Komputasi DescriptiveAnalyticsStatistics
29 halaman
Tugas 1 Pak Haris
Belum ada peringkat
Tugas 1 Pak Haris
4 halaman
1.10 Lembar Materi Pelajaran Pandas Untuk Analisis Data
Belum ada peringkat
1.10 Lembar Materi Pelajaran Pandas Untuk Analisis Data
3 halaman
V3.0 - Data Processing - 1 - Introduction To Pandas DataFrame & Transformation
Belum ada peringkat
V3.0 - Data Processing - 1 - Introduction To Pandas DataFrame & Transformation
156 halaman
Explory Data Analys With Python
Belum ada peringkat
Explory Data Analys With Python
4 halaman
Laporan Tugas Besar 2 Kel-3
Belum ada peringkat
Laporan Tugas Besar 2 Kel-3
14 halaman
LPR Minggu Ke 4
Belum ada peringkat
LPR Minggu Ke 4
43 halaman
Pembelajaran Machine Learning
Belum ada peringkat
Pembelajaran Machine Learning
7 halaman
Materi Pekan 2 Hari 1 Pandas
Belum ada peringkat
Materi Pekan 2 Hari 1 Pandas
6 halaman
Fikri - Library Pandas Python
Belum ada peringkat
Fikri - Library Pandas Python
12 halaman
Tugas Data Analisis
Belum ada peringkat
Tugas Data Analisis
18 halaman
Tugas Dasar Pemodelan Dengan Python
Belum ada peringkat
Tugas Dasar Pemodelan Dengan Python
12 halaman
Laporan Tugas APL 2
Belum ada peringkat
Laporan Tugas APL 2
5 halaman
Tutorial Pandas Bag-1
Belum ada peringkat
Tutorial Pandas Bag-1
3 halaman
Python For Data Processing - Rakamin Trial Class
Belum ada peringkat
Python For Data Processing - Rakamin Trial Class
35 halaman
Tubes Komputasi 2
Belum ada peringkat
Tubes Komputasi 2
25 halaman
Python Training 4
Belum ada peringkat
Python Training 4
21 halaman
Praktikum Big Data M - 7
Belum ada peringkat
Praktikum Big Data M - 7
12 halaman
BAB 10 Read Excel
Belum ada peringkat
BAB 10 Read Excel
11 halaman
PTI-B Tubes
Belum ada peringkat
PTI-B Tubes
17 halaman
Belajar Pandas
Belum ada peringkat
Belajar Pandas
1 halaman
Lab 6 - Pandas - Ipynb - Colab
Belum ada peringkat
Lab 6 - Pandas - Ipynb - Colab
9 halaman
ML - Pertemuan 3
Belum ada peringkat
ML - Pertemuan 3
13 halaman
Laporan Tugas APL 1
Belum ada peringkat
Laporan Tugas APL 1
5 halaman
Modul P8 Praktikum Algoritma Dan Pemrograman
Belum ada peringkat
Modul P8 Praktikum Algoritma Dan Pemrograman
23 halaman
Python For Data Processing
Belum ada peringkat
Python For Data Processing
36 halaman
Data Visualization With Python Matplotlib For Beginner
Belum ada peringkat
Data Visualization With Python Matplotlib For Beginner
10 halaman
Data Preprocessing in Spark
Belum ada peringkat
Data Preprocessing in Spark
9 halaman
Ulangan Bab Analisa Data Dengan Python
Belum ada peringkat
Ulangan Bab Analisa Data Dengan Python
4 halaman
Modul 3
Belum ada peringkat
Modul 3
10 halaman
Data Understanding 2
Belum ada peringkat
Data Understanding 2
8 halaman
3 DataVisualization 1
Belum ada peringkat
3 DataVisualization 1
167 halaman
09 Tutorial Python Missing Values
Belum ada peringkat
09 Tutorial Python Missing Values
43 halaman
Deden Adi - 220660121158 - Kuis Bda-2
Belum ada peringkat
Deden Adi - 220660121158 - Kuis Bda-2
5 halaman
Laporan8 Ayung Alqadri LatihanDataCleaning
Belum ada peringkat
Laporan8 Ayung Alqadri LatihanDataCleaning
16 halaman
Analisis Menggunakan Python
Belum ada peringkat
Analisis Menggunakan Python
2 halaman
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
Belum ada peringkat
Laporan "Data Quality With Python ": Di Susun Oleh: Muhammad Aqza Angga Nugraha 2213027
11 halaman
Data Profiling
Belum ada peringkat
Data Profiling
13 halaman
M11 - Exploratory Data Analysis Dengan Python
Belum ada peringkat
M11 - Exploratory Data Analysis Dengan Python
55 halaman
Tutorial Lab 1
Belum ada peringkat
Tutorial Lab 1
22 halaman
Tugas Algoritma Mengelola Data Kelas1a
Belum ada peringkat
Tugas Algoritma Mengelola Data Kelas1a
10 halaman
Kikih Isman Iskandar - 220660121095
Belum ada peringkat
Kikih Isman Iskandar - 220660121095
6 halaman
Satuan Pendidikan - INSTRUMEN Gladi Bersih AN
Belum ada peringkat
Satuan Pendidikan - INSTRUMEN Gladi Bersih AN
7 halaman
0501 Undangan (FGD) Dialog Perencanaan Pembangunan Inklusif
Belum ada peringkat
0501 Undangan (FGD) Dialog Perencanaan Pembangunan Inklusif
1 halaman
Peraturan Pendaftaran Industrial Competition 2022
Belum ada peringkat
Peraturan Pendaftaran Industrial Competition 2022
1 halaman
Bahan Ajar 6B.2 (Investasi Dan Pinjaman)
0% (1)
Bahan Ajar 6B.2 (Investasi Dan Pinjaman)
23 halaman
Pengumuman Penetepan Hasil Seleksi Administrasi PPK Di Kota Malang
Belum ada peringkat
Pengumuman Penetepan Hasil Seleksi Administrasi PPK Di Kota Malang
6 halaman
Kamus Usulan RKPD 2024
Belum ada peringkat
Kamus Usulan RKPD 2024
50 halaman
PDF Soal Usbn Pkwu Sma 2020 Dan Kunci Jawabannya Dbi
Belum ada peringkat
PDF Soal Usbn Pkwu Sma 2020 Dan Kunci Jawabannya Dbi
11 halaman
Teknis Lomba Classmeet
Belum ada peringkat
Teknis Lomba Classmeet
4 halaman
Pengumuman Penetapan Hasil Seleksi Calon Anggota PPK
Belum ada peringkat
Pengumuman Penetapan Hasil Seleksi Calon Anggota PPK
7 halaman