0% menganggap dokumen ini bermanfaat (0 suara)
59 tayangan

Exploratory Data Analysis With Python - Rakamin Trial Class

Sesi ini membahas tentang Exploratory Data Analysis (EDA) yang meliputi tujuan, tahapan dan teknik dasar EDA seperti analisis deskriptif, univariate dan multivariate. Sesi ini juga mendemonstrasikan cara praktis melakukan EDA menggunakan contoh dataset Titanic.

Diunggah oleh

HAFIDZ NUR SHAFWAN
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
59 tayangan

Exploratory Data Analysis With Python - Rakamin Trial Class

Sesi ini membahas tentang Exploratory Data Analysis (EDA) yang meliputi tujuan, tahapan dan teknik dasar EDA seperti analisis deskriptif, univariate dan multivariate. Sesi ini juga mendemonstrasikan cara praktis melakukan EDA menggunakan contoh dataset Titanic.

Diunggah oleh

HAFIDZ NUR SHAFWAN
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 29

ML Preparation:

Exploratory Data
Analysis (EDA)
Saya
Master of Science
Leiden University (2017-2019)
Focused on application of theoretical machine
learning & reinforcement learning

Senior Data Scientist


Bukalapak (2020 - present)

Pararawendy Indarjo
Email : [email protected]
Linkedin : https://www.linkedin.com/in/pararawendy-indarjo/
Blog : medium.com/@pararawendy19

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Sesi ini:
1. Exploratory Data Analysis (EDA) itu apa?
2. Kenapa perlu melakukan EDA?
3. How to EDA
4. Hands-on: studi kasus botak
5. QnA

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Hands-On Required :
Hands - On :
Exploratory Data Analysis Hands On.ipynb

Dataset :
1. botak.csv

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Apa itu Exploratory
Data Analysis (EDA)?
Data juga ingin dipahami

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
“Exploratory Data Analysis (EDA) adalah proses analisis
untuk memahami karakteristik data, dan hal-hal yang perlu
kita lakukan agar data tersebut dapat digunakan untuk
proses pembelajaran model ”

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
The Bigger Context
Business Data
Analysis
Understanding Requirements

ML Workflow Data Collection

Feedback

Data
Insight Understanding

Data
Deployment Evaluation Modeling
Preparation
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir3
Tahap Masuk Proses Keluar
Data collection - ● Survey/Labelling ● Data mentah
● ETL
Data ● Data mentah ● Exploratory Data ● Data mentah
understanding Analysis ● Insight/To do list
Data ● Data mentah ● Pre-processing ● Data training
preparation ● To do list ● Feature processing ● Data test/validation
Modelling ● Data training ● Model training ● ML Model
● Hyperparameter
tuning
Evaluation ● Data test/ ● Validation ● Performance
validation measure
Deployment ● Data baru ● Prediction ● Prediksi

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Kenapa perlu EDA?

Untuk menjawab pertanyaan


berikut:
● Bagaimana sebaran nilai dalam feature
dan label kita?

● Apakah kira-kira feature yang kita miliki Meningkatkan


cukup baik untuk memprediksi target? performa model
yang kita bangun
● ‘Persiapan’ macam apa yang harus kita
lakukan sebelum dataset kita dapat
digunakan dalam proses pelatihan model
ML?

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Bagaimana cara
melakukan EDA?

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Dataset
Titanic
- Deskripsi:
Memprediksi survival dari kecelakaan Titanic berdasarkan data-data
penumpang.
- Data:
Setiap baris mewakili penumpang, setiap kolom berisi atribut
penumpang.

- Link Kaggle: https://www.kaggle.com/c/titanic/data

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Import Libraries & Load Data

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Understand The Data

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Bagaimana cara
melakukan EDA?
#1: Descriptive Statistics

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Descriptive Statistics:
Ringkasan statistik dari setiap kolom di dataset yang dapat
memberikan gambaran besar keadaan data.

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
CRASH COURSE

Statistika Deskriptif

Data Data
terkecil 25% 50% 75% terbesar

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Pick + Separate Columns
Pisahkan kolom2 yang
ingin dianalisis

Sample
df.sample() , df.head(), atau df.tail()
akan menampilkan beberapa baris data secara langsung

Yang perlu diperhatikan:


● Apakah ada kolom dengan nilai yang tidak sesuai dengan nama kolom?
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir3
Statistical Summary of Columns

Yang perlu diperhatikan:


● Apakah nilai yang tertera pada setiap kolom masuk akal?
● Apakah nilai maksimal/minimal masih berada di batas wajar?
Min/max yang terlalu jauh dari mean/median bisa jadi indikasi kesalahan input
data
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir3
Bagaimana cara
melakukan EDA?
#2: Univariate Analysis

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Univariate Analysis:
Analisis setiap kolom secara terpisah, melihat distribusi
nilainya secara detail

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Individual Boxplots (Numeric)

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Individual Countplot (Categorical)

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Bagaimana cara
melakukan EDA?
#3: Multivariate Analysis

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Multivariate Analysis:
Analisis beberapa kolom sekaligus untuk mencari hubungan
antar kolom

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
CRASH COURSE

Korelasi Linear (Pearson correlation)


● Pola hubungan antara X dan Y
r = 0.9 r = -0.9 membentuk pola garis lurus
Semakin besar X, semakin besar pula
Y ATAU semakin besar X, semakin
kecil Y
(kotak hijau di samping)

● Nilai korelasi berkisar dari -1 s.d. 1


r=0 r=0 1: hubungan linear sempurna, searah
-1 : hubungan linear sempurna namun
berlawanan arah
0: pola hubungan BUKAN linear

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Correlation Heatmap (Numeric)

df.corr() akan mengembalikan


matriks korelasi; sns.heatmap()
membuat heatmap berdasarkan
matriks
Yang perlu diperhatikan:
● Apakah ada fitur-fitur yang
berkorelasi kuat (>0.7)?
Bila ya, ada kemungkinan
besar kedua feature tersebut
redundan

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Hands-on: EDA
Prediksi
Kebotakan
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir3
Dataset
Botak.csv
- Deskripsi:
Dataset sintetik. Memprediksi peluang botaknya seseorang dari
beberapa atribut mengenai orang tersebut.
- Data:
Setiap baris mewakili satu orang, setiap kolom berisi atribut orang
tersebut.

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3
Sudah.
Sesi tanya-jawab

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir3

Anda mungkin juga menyukai