0% menganggap dokumen ini bermanfaat (0 suara)
51 tayangan

Python For Data Processing - Rakamin Trial Class

Dokumen tersebut membahas tentang pengolahan data dengan bahasa pemrograman Python, meliputi pengenalan Python, pengenalan data frame, sorting data, filtering data, dan agregasi data."

Diunggah oleh

taftazanialwan03
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
51 tayangan

Python For Data Processing - Rakamin Trial Class

Dokumen tersebut membahas tentang pengolahan data dengan bahasa pemrograman Python, meliputi pengenalan Python, pengenalan data frame, sorting data, filtering data, dan agregasi data."

Diunggah oleh

taftazanialwan03
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 35

Data Processing

(with python)
Session Outline

1. Pengenalan Python
2. Pengenalan Data Frame
3. Data Sorting
4. Data Filtering
5. Data Aggregation
Pengenalan
Python
Apa itu Python?

Python is an interpreted , high-level,


general-purpose programming language.

Mudahnya...
Python adalah bahasa pemrograman yang mudah dipahami oleh
manusia dan dapat digunakan untuk berbagai tujuan, mulai dari
analisis data, membuat website, aplikasi dll
Pemanfaatan Python Dalam Data Science

❖ Pengolahan Data
❖ Visualisasi Data
❖ Perhitungan Statistika
❖ Pemodelan Machine Learning
❖ Model Deployment
❖ dsb...
Jupyter Notebook

Jupyter notebook atau lab adalah


salah satu code editor yang biasa
digunakan data scientist untuk
menuliskan dan menjalankan bahasa
pemrograman python.
Google Colab[otary]

Bisa dibilang ini adalah alternatif dari


Jupyter Notebook di mana file
notebook kita tersimpan secara
online.
https://colab.research.google.com/

Kelebihan: Kekurangan:
● built-in-library data science yang lengkap ● harus online saat menggunakan
● tidak memakan space dalam memori komputer ● auto-restart setelah 12 jam
● data dapat diakses dan diedit dengan mudah ● butuh install ulang library lain
● mempermudah kolaborasi
● terintegrasi dengan tools Google lainnya
Hands On Information

bit.ly/DataProcessingRakamin
Source Code:
Hands On - Data Processing.ipynb
Dataset :
rakamin_class.csv
Variabel

Mudahnya. . .

Variabel adalah suatu element nama yang memiliki nilai dan nilai nya dapat ubah-ubah.
Contoh:

Maka tinggi badan dalam konteks ini adalah variabel yang didefinisikan memiliki nilai 173,
nilai dari 173 ini bisa berubah-ubah.
Pengenalan
Data Frame
Apa itu Data Frame?

Data Frame adalah sebuah tabel atau 2-dimensional data


structure yang setiap kolomnya berisikan value dari satu
variabel.
index column/kolom

row/baris
Apa itu Pandas?

Pandas adalah python library untuk meng-explore,


membersihkan hingga memproses suatu data frame

Pandas Library

Data Frame
Membaca DataFrame dari File CSV
Operasi Sederhana Data Frame

no function kegunaan

a .info() melihat informasi data dari dataframe

b .shape melihat jumlah baris dan kolom

c .columns melihat semua nama kolom

d .describe() melihat statistik sederhana dari data

e .head(n) melihat n baris pertama

f .tail(n) melihat n baris terakhir


Data
Sorting
Mengurutkan Data Berdasarkan Kolom
Tertentu
Data Frame diurut berdasarkan kolom nama
Use Cases
nama umur hobi

Data Frame Awal Andaru 26 Basket

Dadan 60 Memasak
nama umur hobi
Heru 17 Berkebun
Dadan 60 Memasak
Yonathan 55 Musik
Heru 17 Berkebun

Andaru 26 Basket
Format Code
Yonathan 55 Musik
df.sort_values(<column_name>, ascending = True )

Contoh Code
df.sort_values( ‘nama’, ascending = True )
Ascending vs Descending

umur terurut dari kecil ke besar umur terurut dari besar ke kecil

nama umur hobi nama umur hobi

Heru 17 Berkebun Dadan 60 Memasak

Andaru 26 Basket Yonathan 55 Musik

Yonathan 55 Musik Andaru 26 Basket

Dadan 60 Memasak Heru 17 Berkebun

df.sort_values( ‘umur’, ascending = True ) df.sort_values( ‘umur’, ascending = False )


atau
df.sort_values( ‘umur’)
Data
Filtering
Format Dasar Untuk Data Filtering

Code

df[filter]
Filtering Kolom

Code

df[[‘<column 1>’,’<column 2>’, ...]]

nama umur hobi sepatu kota

dadan 30 memasak nike jakarta

didin 40 berkebun adidas bogor

dodon 26 basket adidas depok

df[ [‘nama’ , ‘umur’] ] : Ambil kolom nama dan umur

df[ [‘nama’,’umur’,’sepatu’] ] : Ambil kolom nama, umur


dan sepatu
Filtering Baris
Berdasarkan Nilai Kolom Tertentu
Code

df[df[‘<column>’] == <value>]

nama umur hobi sepatu kota

dadan 30 memasak nike jakarta

didin 40 berkebun adidas bogor

dodon 26 basket adidas depok

df[ df[‘sepatu’]==’adidas’ ]
Ambil data dengan nilai kolom sepatu adalah adidas
Operasi Perbandingan

Kegunaan Code Contoh


Sama dengan == df[‘umur’] == 10

Tidak sama dengan != df[‘umur’] != 10

Lebih dari > df[‘umur’] > 10

Lebih dari sama dengan >= df[‘umur’] >= 10

Kurang dari < df[‘umur’] < 10

Kurang dari sama dengan <= df[‘umur’] <= 10


Filtering Baris
Berdasarkan Nilai Beberapa Kolom
Code

df[df[‘<column>’] == <value>]

filter dengan 2 kolom


df[(df[‘<column_1>’] == <value_1>) & (df[‘<column_2>’] == <value_2>)]

filter kolom pertama filter kolom kedua

Operator Deskripsi

& AND

| OR

~ NOT
Data
Aggregation
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak

Ujang 33 43 Renang

Heru 17 41 Renang

Andaru 26 41 Renang Mengelompokan


berdasarkan Hobi
Yonathan 55 40 Musik

Ilham 44 44 Musik

Joshua 22 39 Musik

Petra 37 40 Musik
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang

Andaru 26 41 Renang

Yonathan 55 40 Musik

Ilham 44 44 Musik

Joshua 22 39 Musik

Petra 37 40 Musik
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang
- Memasak = (60+15)/2
Andaru 26 41 Renang

Yonathan 55 40 Musik

Ilham 44 44 Musik

Joshua 22 39 Musik

Petra 37 40 Musik
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang
- Memasak = (60+15)/2
Andaru 26 41 Renang

Yonathan 55 40 Musik - Renang = (33+17+26)/3

Ilham 44 44 Musik

Joshua 22 39 Musik

Petra 37 40 Musik
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang
- Memasak = (60+15)/2
Andaru 26 41 Renang

Yonathan 55 40 Musik - Renang = (33+17+26)/3

Ilham 44 44 Musik
- Musik = (55+44+22+37)/4
Joshua 22 39 Musik

Petra 37 40 Musik
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang
● Berapa nomor sepatu terbesar tiap
Andaru 26 41 Renang grup Hobi?
Yonathan 55 40 Musik
● Ada berapa orang yang memiliki hobi
Ilham 44 44 Musik
Musik?
Joshua 22 39 Musik

Petra 37 40 Musik
Aggregation

Code

df.groupby( ’<column_name>’ ).statistik()

statistik kegunaan
.count() menghitung total baris

.nunique() menghitung total baris yang unique

.mean() rata-rata dari kolom

.median() median data dari kolom

.min() nilai terkecil dari kolom

.max() nilai maksimal dari kolom


Aggregation Terhadap Beberapa Kolom
Code

df.groupby( [’<column_a>’,’<column_b> ‘,’<column_c>’ , . . . ] ).statistik()

nama umur gender hobi

Dadan 60 L Memasak

Firman 15 L Memasak

Indah 31 P Renang df.groupby( [’hobi’ ,’gender’ ]).mean()


Heru 17 L Renang

Andaru 26 L Renang

Yonathan 55 L Musik

Ilham 44 L Musik

Andien 22 P Musik

Jessica 37 P Musik
Operasi Lain
(Sneak Peek)
Terima Kasih

Anda mungkin juga menyukai