0% found this document useful (0 votes)
56 views113 pages

Pengenalan Beragam Macam Data

Setelah perhitungan didapatkan = Modus X: 170 Modus Y: 50 Modus Z: 205 X Y Z 120 50 205 170 Null 202 200 70 Null Null 59 312 Null 32 500 X Y Z 120 50 205 170 50 202 200 50 205 170 50 312 170 50 500 15 Data Cleaning ➢ Mengidentifikasi atau menghapus nilai Outliers. - Cara mendeteksi Outliers: - Metode Inter Quartile Range (
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
56 views113 pages

Pengenalan Beragam Macam Data

Setelah perhitungan didapatkan = Modus X: 170 Modus Y: 50 Modus Z: 205 X Y Z 120 50 205 170 Null 202 200 70 Null Null 59 312 Null 32 500 X Y Z 120 50 205 170 50 202 200 50 205 170 50 312 170 50 500 15 Data Cleaning ➢ Mengidentifikasi atau menghapus nilai Outliers. - Cara mendeteksi Outliers: - Metode Inter Quartile Range (
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 113

Exploratory Data Analysis

with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Let’s Get to Know Each Other
Senior Developer Web & Mobile Application at ONE GML Digital Learning
Solutions. Create plugins for E-Learning, handling prototype software
design, create system for people development and develop system for
Data Science.
Experienced in more than 5 years in programming languages. The most
programming languages i’ve used is Python for Data Science, PHP for
Backend Systems, Angular JS & Typescript for Frontend, and Java for Back
Felix Aristo
end Systems (Desktop Applications).

Senior Developer
Web & Mobile
Application at ONE
GML Digital
Learning Solutions Contact:
WA: 0896 0867 0056
@: [email protected]
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 1:
Pengenalan
Beragam Macam Data
Image Data
B (Blue)
0 0 255
0 0 128
255 255 255

G (Green)
0 255 0
0 128 0
128 128 128

R (Red)
255 0 0
128 0 0
0 0 0

6
Spatial Data

Data Spasial yaitu sebuah data yang


berorientasi geografis dan merupakan
lokasi yang memiliki sistem koordinat
tertentu.

7
Spatial Data

Vector Raster

8
Spatial Data

9
Spatial Data

10
Stream Data

Data yang bersifat continue, terurut, selalu berubah,


cepat, dan banyak.

Contoh penerapan data stream: Video


Streaming, Network Traffic,
Telecommunication, Stock Exchange,
etc.

11
Time-Series Data

Data yang bersifat terurut, dengan


memperhatikan aspek waktu.
(hourly, daily, weekly, etc)

Contoh penerapan data stream:


Inventory Control, Weather Data.

12
Sequential Data

Data yang bersifat terurut, tanpa


melihat aspek waktu masuknya data.

Contoh sequential data: Urutan


datangnya konsumen, urutan
DNA/Protein (Bidang Biologi).

Gene Expression Data

13
POINTS OF REFLECTIONS

Image Data

1 Time-Series Data

4
5
Sequential
2 Data
Spatial Data 3
Stream Data
14
Daftar Pustaka

• Jiawei Han and Micheline Kamber, Data Mining:


Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Teknik Data Mining 1, Kalbis Institute

15
16
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 2:
Preprocessing Data
Preprocessing ?

➢ Adanya data yang Incomplete (Kurangnya atribut nilai pada


suatu fitur tertentu atau atribut lainnya).

➢ Memiliki Noisy (Mengandung kesalahan, nilai outlier yang


menyimpang dari yang diharapkan).

➢ Incosistent Data (Ketidak konsistenan pada data, seperti


perbedaan kode yang digunakan dalam pengkategorian item).
➢ Adanya data yang Incomplete
X Y Z

• Incomplete Data, bisa terjadi karena


banyak hal, seperti tidak semua informasi
yang ingin diketahui dapat kita peroleh.
Misalnya informasi customer untuk data
transaksi penjualan.

• Penyebab Incomplete Data, biasanya


disebabkan oleh kesalahpahaman atau
terjadinya kerusakan pada alat / sistem
yang digunakan

Missing Values
➢ Memiliki Noisy (Outlier)

• Noisy Data, merupakan kesalahan pada


suatu variabel data yang memiliki nilai
jauh berbeda dibandingkan dengan X Y Z
angka di sekitarnya (menyimpang dari
angka yang diharapkan). 50 2 122
• Penyebab Noisy Data: 1302 4 150
• Sistem untuk pengumpulan data
terjadi kerusakan. 57 2 131
• Terjadinya Human Error pada saat
penginputan data. 49 500 1
• Kesalahan pada transmisi data, atau
keterbatasan teknologi yang 20 3 150
digunakan.

Outliers
➢ Incosistent Data

• Incosistent Data, merupakan ketidak konsistenan pada data,


seperti perbedaan kode yang digunakan dalam pengkategorian
item.

• Penyebab Incosistent Data:


• Proses historis pencatatan data atau modifikasi pada data yang
terabaikan.
• Terjadinya perbedaan dengan data yang dicatat mungkin telah
terhapus.
Preprocessing Goals

Tujuan utama dari Pre processing adalah untuk


mengatasi Incomplete Data, Noisy Data, dan
Incosistent Data.
Preprocessing Step

Data Cleaning Data Integration Data Selection Data Transformation


Data Cleaning

Tugas utama pada Data Cleaning:

• Menangani nilai Missing Values.


• Mengidentifikasi atau menghapus nilai Outliers.
• Menangani kasus Incosistency Data.

11
Data Cleaning
➢ Menangani nilai Missing Values.
Terdapat beberapa cara untuk menangani nilai Missing Values:

• Mean

• Median

• Most Frequent (Modus)


Mengisi dengan nilai frekuensi terbanyak.

• Delete / Drop Row


Menghapus langsung row yang kosong.

• Abaikan nilai kosong atau isi dengan inisial dan angka tertentu. 12
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Mean.
Setelah perhitungan didapatkan =
Mean X: 163
X Y Z Mean Y: 52
Mean Z: 304
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 52 202
Null 59 312
200 70 304
Null 32 500
163 59 312
163 32 500 13
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Median.
Setelah perhitungan didapatkan =
Median X: 170
X Y Z Median Y: 54,5
Median Z: 258,5
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 54,5 202
Null 59 312
200 70 258,5
Null 32 500
170 59 312
170 32 500 14
Data Cleaning
➢ Menangani nilai Missing Values dengan Most Frequent (Modus).
Setelah perhitungan didapatkan =
Most Frequent X: 200
X Y Z Most Frequent Y: 59
Most Frequent Z: 205
200 59 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 59 202
Null 59 205
200 70 205
Null 59 300
200 59 312
200 32 500 15
Data Cleaning
➢ Menangani nilai Missing Values dengan Delete / Drop Row.

X Y Z
200 59 205
170 Null 202 X Y Z
200 70 Null 120 50 205
Null 59 205
Null 59 300

16
Data Cleaning

Pemilihan cara penanganan Missing Values


diambil berdasarkan kebijakan penelitinya
dan tergantung kasus yang sedang dihadapi.

17
Data Cleaning
➢ Handling Outliers.

18
Data Cleaning
Five Number Summary
➢ Handling Outliers.
• The Minimum
• Q1 (Kuartil pertama atau 25%)
• The Median (50%)
• Q3 (Kuartil ketiga atau 75%)
• The Maximum

19
Data Cleaning
➢ Handling Outliers.

20
Data Cleaning
➢ Handling Outliers.

Penanganan Outliers biasanya nilai outliers / pencilan


akan dihapus karena akan mengganggu model yang akan
dibangun atau diabaikan jika menurut peneliti tidak terlalu
signifikan.

Akan tetapi terdapat pengecualian dalam data medis,


biasanya nilai outliers akan dipelajari lebih lanjut oleh tim
kesehatan, yang ditakutkan nilai itu mengandung informasi
kelainan genetik atau hal lainnya dari pasien yang diteliti.

21
Data Integration

• Menggabungkan dari berbagai macam sumber data. Terdapat


pengubahan data ke dalam bentuk yang sesuai.
• Bertujuan agar data mudah dipahami dan menggali data menjadi lebih
mudah.

22
Data Selection

Proses untuk mengurangi data yang kompleks / besar ke dalam


bentuk yang lebih kecil.

Metode:
• PCA (Principle Component Analysis)
• Variance Threshold
• Etc..

23
Data Transformation

• Proses untuk mengubah struktur atau informasi dalam data.

• Seperti contoh berikut ini, suatu variabel nama_jalan dapat dipecah


atau diubah ke struktur yang lebih tinggi, menjadi variabel kota atau
negara.

24
POINTS OF REFLECTIONS PREPROCESSING
DATA
Data
Cleaning
1
Data
Transformation
4
2
Data 3
Integration Data
Selection
25
Daftar Pustaka

• Jiawei Han and Micheline Kamber, Data Mining:


Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Data Descriptive, Kalbis Institute

26
Coding Time !

27
Asset File

https://drive.google.com/file/d/1LZYpvTB7fijLFcHBmjCYDmv
WRBDzcZoX/view?usp=sharing

28
29
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 3:
Analisis Data Deskriptif
dan Visualisasi Data
Visualisasi Data
Sebagai Tools
Tujuan Visualisasi Data

1. Monitoring
Tujuan Visualisasi Data

2. Analisis
Tujuan Visualisasi Data

3. Komunikasi
Bagaimana Memilih
Tampilan Visual yang Layak?
Discrete
Data yang diperoleh dari hasil
menghitung dan terbatas. Contoh:
jumlah barang yang terjual, jumlah
karyawan pada suatu perusahaan.

Continuous
Data yang diperoleh dari hasil Kenali dulu
mengukur dan memiliki nilai data yang dimiliki
rentang. Contoh: umur, berat
badan.

Categorical
Data yang dapat diurutkan
berdasarkan grup atau kategori.
Contoh: Tipe produk yang terjual.
Mengenali Atribut Pra Atensi

1234632819681624863428
7634782678324673281372
48921234782199712472
Menghitung angka 3
Mengenali Atribut Pra Atensi

1234632819681624863428
7634782678324673281372
48921234782199712472
Menghitung angka 3
Mengenali Atribut Pra Atensi
Sinyal Fokus Area
Bar Chart

Line Chart

Petunjuk Penggunaan Pie Chart


Chart
Scatter Plot

Heat Map
Bar Chart
Bar Chart sangat mudah dibaca dan paling sering digunakan. Visualisasi ini
paling cocok digunakan untuk membandingkan perbedaan kategori atau
membandingkan tiap bagian dari keseluruhan data.

Vertical Bar Chart Horizontal Bar Chart


Bar Chart
Penggunaan yang tepat.

Gunakan horizontal label. Jarak antar bar lebih baik


½ dari lebar bar.

Sumbu Y harus dimulai dari Urutkan berdasarkan


angka 0. alfabet atau nilainya.
Line Chart

Line Chart digunakan untuk menunjukkan data time-series. Line Chart dapat
membantu untuk melihat trend dari suatu data.
Line Chart
Penggunaan yang tepat.

Multi serial data jangan Gunakan garis yang jelas, garis


lebih dari 4 garis. putus-putus akan membuat distraksi.

Sumbu Y harus dimulai dari Pelabelan langsung


angka 0. pada garisnya.
Pie Chart
Pie Chart digunakan untuk
membuat bagian ke keseluruhan perbandingan data.
Pie Chart
Penggunaan yang tepat.

Jangan gunakan Multiple Pie Chart


Visualisasi jangan lebih sebagai perbandingan. Gunakan
dari 5 kategori per chart. Stacked Bar Chart sebagai gantinya,

Pastikan semuanya 100%. Gunakan tanda angka sebagai


urutannya dan urutan bisa berdasarkan
arah jarum jam atau sebaliknya.
Scatter Plot

Scatter Plot menunjukkan relasi atau hubungan antara dua variabel.


Scatter Plot
Penggunaan yang tepat.

Sumbu Y harus dimulai dari Jangan bandingkan


angka 0. lebih dari 2 garis trend.
Heat Map

Heat Map menggambarkan dari categorical data menggunakan intensitas warna


untuk merepresentasikan nilai dari unsur geografis atau data tabel.
Heat Map
Penggunaan yang tepat.

Hindari outline yang terlalu Pilih warna yang kira-kira


tebal. sama.

Gunakan range yang


tepat.
Daftar Pustaka

• bercerita dengan data, Cole Nussbaumer Knaflic, (PT Elex Media Komputindo 2019)
• Data Visualization 101: How To Design Charts And Graphs, (Hubspot, Visage)
• Data Visualization Basics, Michael Grossberg

25
Coding Time !

26
Asset File

https://drive.google.com/file/d/1_lecklc8jfSvrhY-
lKf5BMz6xbSYk8ro/view?usp=sharing

27
28
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 4:
Visualisasi Data Spasial
Spatial Data

Data Spasial yaitu sebuah data yang


berorientasi geografis dan merupakan
lokasi yang memiliki sistem koordinat
tertentu.

5
Spatial Data

Vector Raster

6
Spatial Data

7
Spatial Data

8
Representasi Data
GEOJSON
GEOJSON
Geometry Primitives
Multipart Geometries
Gambar di samping
Termasuk jenis
geometris apa?
Gambar di samping
Termasuk jenis
geometris apa?

MULTIPOLYGON
Contour
Manfaat melakukan analisis data spasial

• Mengetahui lokasi yang strategis


untuk kawasan industri.

• Memberikan gambaran
pendukung untuk lokasi
pembangunan kawasan industri.
Daftar Pustaka

• Michael Kennedy (2013). Introducing Geographic Information Systems With ArcGIS,


3rd Edition, John Wiley & Sons
• Data Visualization 101: How To Design Charts And Graphs, (Hubspot, Visage)
• Data Visualization Basics, Michael Grossberg

17
Coding Time !

18
Asset File

https://drive.google.com/file/d/1S8D3rni7AK2v4RjA_I
Ef17270orgGeID/view?usp=sharing

19
20
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 5:
Pemodelan Analisis Prediktif
Algoritma
Data Mining

Supervised Unsupervised
Learning Learning

5
Supervised Learning vs Unsupervised Learning

6
Supervised Learning in Golf Recommendation Dataset

Attribute / Variable / Feature

Label / Class / Target

7
Supervised Learning Implementation

New Data

How to know the result?

Sunny Hot Normal False ?


8
Data Mining Technique for Supervised Learning

Decision Tree
Logistic Regression
For K-Nearest Neighbor
Categorical Data
SVM
Etc..
Classification

Linear Regression
For Decision Tree
Continuous Data /
Descrete Random Forests
Etc..
9
Unsupervised Learning in Golf Recommendation Dataset

Attribute / Variable / Feature

Unknown
Label / Class / Target

10
Unsupervised Learning Implementation

How to know the label?


?

New Data

Sunny Hot Normal False


11
Data Mining Technique for Unsupervised Learning

Apriori
For
Assosiation
Categorical Data Etc..

Regression Linear Regression

For
Continuous Data / K-Means
Clustering
Descrete
Fuzzy C-Means

Etc.. 12
Splitting Datasets

Training Datasets
Build the Model
(70%)

Dataset
(100%)

Test Datasets
(30%)
Apply Model

13
Predicting with
Linear Regression

14
Predicting with
Decision Tree of
Golf Recommendation
(Supervised Learning)

15
K-Means Clustering

16
Daftar Pustaka

• Jiawei Han and Micheline Kamber, Data Mining:


Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Fundamental Machine Learning, Kalbis
Institute
17
Coding Time !

18
Asset File

https://drive.google.com/file/d/1KjoIpavUyLdxfkEg17sE
ZoYd0VAXpRxO/view?usp=sharing

19
20

You might also like