0% found this document useful (0 votes)

56 views113 pages

Pengenalan Beragam Macam Data

Setelah perhitungan didapatkan = Modus X: 170 Modus Y: 50 Modus Z: 205 X Y Z 120 50 205 170 Null 202 200 70 Null Null 59 312 Null 32 500 X Y Z 120 50 205 170 50 202 200 50 205 170 50 312 170 50 500 15 Data Cleaning ➢ Mengidentifikasi atau menghapus nilai Outliers. - Cara mendeteksi Outliers: - Metode Inter Quartile Range (

Uploaded by

Ricco Putra Perdana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

56 views113 pages

Pengenalan Beragam Macam Data

Uploaded by

Ricco Putra Perdana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 113

Exploratory Data Analysis

with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Let’s Get to Know Each Other
Senior Developer Web & Mobile Application at ONE GML Digital Learning
Solutions. Create plugins for E-Learning, handling prototype software
design, create system for people development and develop system for
Data Science.
Experienced in more than 5 years in programming languages. The most
programming languages i’ve used is Python for Data Science, PHP for
Backend Systems, Angular JS & Typescript for Frontend, and Java for Back
Felix Aristo
end Systems (Desktop Applications).

Senior Developer
Web & Mobile
Application at ONE
GML Digital
Learning Solutions Contact:
WA: 0896 0867 0056
@: [email protected]
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 1:
Pengenalan
Beragam Macam Data
Image Data
B (Blue)
0 0 255
0 0 128
255 255 255

G (Green)
0 255 0
0 128 0
128 128 128

R (Red)
255 0 0
128 0 0
0 0 0

6
Spatial Data

Data Spasial yaitu sebuah data yang

berorientasi geografis dan merupakan
lokasi yang memiliki sistem koordinat
tertentu.

7
Spatial Data

Vector Raster

8
Spatial Data

9
Spatial Data

10
Stream Data

Data yang bersifat continue, terurut, selalu berubah,

cepat, dan banyak.

Contoh penerapan data stream: Video

Streaming, Network Traffic,
Telecommunication, Stock Exchange,
etc.

11
Time-Series Data

Data yang bersifat terurut, dengan

memperhatikan aspek waktu.
(hourly, daily, weekly, etc)

Contoh penerapan data stream:

Inventory Control, Weather Data.

12
Sequential Data

Data yang bersifat terurut, tanpa

melihat aspek waktu masuknya data.

Contoh sequential data: Urutan

datangnya konsumen, urutan
DNA/Protein (Bidang Biologi).

Gene Expression Data

13
POINTS OF REFLECTIONS

Image Data

1 Time-Series Data

4
5
Sequential
2 Data
Spatial Data 3
Stream Data
14
Daftar Pustaka

• Jiawei Han and Micheline Kamber, Data Mining:

Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Teknik Data Mining 1, Kalbis Institute

15
16
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 2:
Preprocessing Data
Preprocessing ?

➢ Adanya data yang Incomplete (Kurangnya atribut nilai pada

suatu fitur tertentu atau atribut lainnya).

➢ Memiliki Noisy (Mengandung kesalahan, nilai outlier yang

menyimpang dari yang diharapkan).

➢ Incosistent Data (Ketidak konsistenan pada data, seperti

perbedaan kode yang digunakan dalam pengkategorian item).
➢ Adanya data yang Incomplete
X Y Z

• Incomplete Data, bisa terjadi karena

banyak hal, seperti tidak semua informasi
yang ingin diketahui dapat kita peroleh.
Misalnya informasi customer untuk data
transaksi penjualan.

• Penyebab Incomplete Data, biasanya

disebabkan oleh kesalahpahaman atau
terjadinya kerusakan pada alat / sistem
yang digunakan

Missing Values
➢ Memiliki Noisy (Outlier)

• Noisy Data, merupakan kesalahan pada

suatu variabel data yang memiliki nilai
jauh berbeda dibandingkan dengan X Y Z
angka di sekitarnya (menyimpang dari
angka yang diharapkan). 50 2 122
• Penyebab Noisy Data: 1302 4 150
• Sistem untuk pengumpulan data
terjadi kerusakan. 57 2 131
• Terjadinya Human Error pada saat
penginputan data. 49 500 1
• Kesalahan pada transmisi data, atau
keterbatasan teknologi yang 20 3 150
digunakan.

Outliers
➢ Incosistent Data

• Incosistent Data, merupakan ketidak konsistenan pada data,

seperti perbedaan kode yang digunakan dalam pengkategorian
item.

• Penyebab Incosistent Data:

• Proses historis pencatatan data atau modifikasi pada data yang
terabaikan.
• Terjadinya perbedaan dengan data yang dicatat mungkin telah
terhapus.
Preprocessing Goals

Tujuan utama dari Pre processing adalah untuk

mengatasi Incomplete Data, Noisy Data, dan
Incosistent Data.
Preprocessing Step

Data Cleaning Data Integration Data Selection Data Transformation

Data Cleaning

Tugas utama pada Data Cleaning:

• Menangani nilai Missing Values.

• Mengidentifikasi atau menghapus nilai Outliers.
• Menangani kasus Incosistency Data.

11
Data Cleaning
➢ Menangani nilai Missing Values.
Terdapat beberapa cara untuk menangani nilai Missing Values:

• Mean

• Median

• Most Frequent (Modus)

Mengisi dengan nilai frekuensi terbanyak.

• Delete / Drop Row

Menghapus langsung row yang kosong.

• Abaikan nilai kosong atau isi dengan inisial dan angka tertentu. 12
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Mean.
Setelah perhitungan didapatkan =
Mean X: 163
X Y Z Mean Y: 52
Mean Z: 304
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 52 202
Null 59 312
200 70 304
Null 32 500
163 59 312
163 32 500 13
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Median.
Setelah perhitungan didapatkan =
Median X: 170
X Y Z Median Y: 54,5
Median Z: 258,5
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 54,5 202
Null 59 312
200 70 258,5
Null 32 500
170 59 312
170 32 500 14
Data Cleaning
➢ Menangani nilai Missing Values dengan Most Frequent (Modus).
Setelah perhitungan didapatkan =
Most Frequent X: 200
X Y Z Most Frequent Y: 59
Most Frequent Z: 205
200 59 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 59 202
Null 59 205
200 70 205
Null 59 300
200 59 312
200 32 500 15
Data Cleaning
➢ Menangani nilai Missing Values dengan Delete / Drop Row.

X Y Z
200 59 205
170 Null 202 X Y Z
200 70 Null 120 50 205
Null 59 205
Null 59 300

16
Data Cleaning

Pemilihan cara penanganan Missing Values

diambil berdasarkan kebijakan penelitinya
dan tergantung kasus yang sedang dihadapi.

17
Data Cleaning
➢ Handling Outliers.

18
Data Cleaning
Five Number Summary
➢ Handling Outliers.
• The Minimum
• Q1 (Kuartil pertama atau 25%)
• The Median (50%)
• Q3 (Kuartil ketiga atau 75%)
• The Maximum

19
Data Cleaning
➢ Handling Outliers.

20
Data Cleaning
➢ Handling Outliers.

Penanganan Outliers biasanya nilai outliers / pencilan

akan dihapus karena akan mengganggu model yang akan
dibangun atau diabaikan jika menurut peneliti tidak terlalu
signifikan.

Akan tetapi terdapat pengecualian dalam data medis,

biasanya nilai outliers akan dipelajari lebih lanjut oleh tim
kesehatan, yang ditakutkan nilai itu mengandung informasi
kelainan genetik atau hal lainnya dari pasien yang diteliti.

21
Data Integration

• Menggabungkan dari berbagai macam sumber data. Terdapat

pengubahan data ke dalam bentuk yang sesuai.
• Bertujuan agar data mudah dipahami dan menggali data menjadi lebih
mudah.

22
Data Selection

Proses untuk mengurangi data yang kompleks / besar ke dalam

bentuk yang lebih kecil.

Metode:
• PCA (Principle Component Analysis)
• Variance Threshold
• Etc..

23
Data Transformation

• Proses untuk mengubah struktur atau informasi dalam data.

• Seperti contoh berikut ini, suatu variabel nama_jalan dapat dipecah

atau diubah ke struktur yang lebih tinggi, menjadi variabel kota atau
negara.

24
POINTS OF REFLECTIONS PREPROCESSING
DATA
Data
Cleaning
1
Data
Transformation
4
2
Data 3
Integration Data
Selection
25
Daftar Pustaka

• Jiawei Han and Micheline Kamber, Data Mining:

Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Data Descriptive, Kalbis Institute

26
Coding Time !

27
Asset File

https://drive.google.com/file/d/1LZYpvTB7fijLFcHBmjCYDmv
WRBDzcZoX/view?usp=sharing

28
29
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 3:
Analisis Data Deskriptif
dan Visualisasi Data
Visualisasi Data
Sebagai Tools
Tujuan Visualisasi Data

1. Monitoring
Tujuan Visualisasi Data

2. Analisis
Tujuan Visualisasi Data

3. Komunikasi
Bagaimana Memilih
Tampilan Visual yang Layak?
Discrete
Data yang diperoleh dari hasil
menghitung dan terbatas. Contoh:
jumlah barang yang terjual, jumlah
karyawan pada suatu perusahaan.

Continuous
Data yang diperoleh dari hasil Kenali dulu
mengukur dan memiliki nilai data yang dimiliki
rentang. Contoh: umur, berat
badan.

Categorical
Data yang dapat diurutkan
berdasarkan grup atau kategori.
Contoh: Tipe produk yang terjual.
Mengenali Atribut Pra Atensi

1234632819681624863428
7634782678324673281372
48921234782199712472
Menghitung angka 3
Mengenali Atribut Pra Atensi

1234632819681624863428
7634782678324673281372
48921234782199712472
Menghitung angka 3
Mengenali Atribut Pra Atensi
Sinyal Fokus Area
Bar Chart

Line Chart

Petunjuk Penggunaan Pie Chart

Chart
Scatter Plot

Heat Map
Bar Chart
Bar Chart sangat mudah dibaca dan paling sering digunakan. Visualisasi ini
paling cocok digunakan untuk membandingkan perbedaan kategori atau
membandingkan tiap bagian dari keseluruhan data.

Vertical Bar Chart Horizontal Bar Chart

Bar Chart
Penggunaan yang tepat.

Gunakan horizontal label. Jarak antar bar lebih baik

½ dari lebar bar.

Sumbu Y harus dimulai dari Urutkan berdasarkan

angka 0. alfabet atau nilainya.
Line Chart

Line Chart digunakan untuk menunjukkan data time-series. Line Chart dapat
membantu untuk melihat trend dari suatu data.
Line Chart
Penggunaan yang tepat.

Multi serial data jangan Gunakan garis yang jelas, garis

lebih dari 4 garis. putus-putus akan membuat distraksi.

Sumbu Y harus dimulai dari Pelabelan langsung

angka 0. pada garisnya.
Pie Chart
Pie Chart digunakan untuk
membuat bagian ke keseluruhan perbandingan data.
Pie Chart
Penggunaan yang tepat.

Jangan gunakan Multiple Pie Chart

Visualisasi jangan lebih sebagai perbandingan. Gunakan
dari 5 kategori per chart. Stacked Bar Chart sebagai gantinya,

Pastikan semuanya 100%. Gunakan tanda angka sebagai

urutannya dan urutan bisa berdasarkan
arah jarum jam atau sebaliknya.
Scatter Plot

Scatter Plot menunjukkan relasi atau hubungan antara dua variabel.

Scatter Plot
Penggunaan yang tepat.

Sumbu Y harus dimulai dari Jangan bandingkan

angka 0. lebih dari 2 garis trend.
Heat Map

Heat Map menggambarkan dari categorical data menggunakan intensitas warna

untuk merepresentasikan nilai dari unsur geografis atau data tabel.
Heat Map
Penggunaan yang tepat.

Hindari outline yang terlalu Pilih warna yang kira-kira

tebal. sama.

Gunakan range yang

tepat.
Daftar Pustaka

• bercerita dengan data, Cole Nussbaumer Knaflic, (PT Elex Media Komputindo 2019)
• Data Visualization 101: How To Design Charts And Graphs, (Hubspot, Visage)
• Data Visualization Basics, Michael Grossberg

25
Coding Time !

26
Asset File

https://drive.google.com/file/d/1_lecklc8jfSvrhY-
lKf5BMz6xbSYk8ro/view?usp=sharing

27
28
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 4:
Visualisasi Data Spasial
Spatial Data

Data Spasial yaitu sebuah data yang

berorientasi geografis dan merupakan
lokasi yang memiliki sistem koordinat
tertentu.

5
Spatial Data

Vector Raster

6
Spatial Data

7
Spatial Data

8
Representasi Data
GEOJSON
GEOJSON
Geometry Primitives
Multipart Geometries
Gambar di samping
Termasuk jenis
geometris apa?
Gambar di samping
Termasuk jenis
geometris apa?

MULTIPOLYGON
Contour
Manfaat melakukan analisis data spasial

• Mengetahui lokasi yang strategis

untuk kawasan industri.

• Memberikan gambaran
pendukung untuk lokasi
pembangunan kawasan industri.
Daftar Pustaka

• Michael Kennedy (2013). Introducing Geographic Information Systems With ArcGIS,

3rd Edition, John Wiley & Sons
• Data Visualization 101: How To Design Charts And Graphs, (Hubspot, Visage)
• Data Visualization Basics, Michael Grossberg

17
Coding Time !

18
Asset File

https://drive.google.com/file/d/1S8D3rni7AK2v4RjA_I
Ef17270orgGeID/view?usp=sharing

19
20
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 5:
Pemodelan Analisis Prediktif
Algoritma
Data Mining

Supervised Unsupervised
Learning Learning

5
Supervised Learning vs Unsupervised Learning

6
Supervised Learning in Golf Recommendation Dataset

Attribute / Variable / Feature

Label / Class / Target

7
Supervised Learning Implementation

New Data

How to know the result?

Sunny Hot Normal False ?

8
Data Mining Technique for Supervised Learning

Decision Tree
Logistic Regression
For K-Nearest Neighbor
Categorical Data
SVM
Etc..
Classification

Linear Regression
For Decision Tree
Continuous Data /
Descrete Random Forests
Etc..
9
Unsupervised Learning in Golf Recommendation Dataset

Attribute / Variable / Feature

Unknown
Label / Class / Target

10
Unsupervised Learning Implementation

How to know the label?

New Data

Sunny Hot Normal False

11
Data Mining Technique for Unsupervised Learning

Apriori
For
Assosiation
Categorical Data Etc..

Regression Linear Regression

For
Continuous Data / K-Means
Clustering
Descrete
Fuzzy C-Means

Etc.. 12
Splitting Datasets

Training Datasets
Build the Model
(70%)

Dataset
(100%)

Test Datasets
(30%)
Apply Model

13
Predicting with
Linear Regression

14
Predicting with
Decision Tree of
Golf Recommendation
(Supervised Learning)

15
K-Means Clustering

16
Daftar Pustaka

• Jiawei Han and Micheline Kamber, Data Mining:

Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Fundamental Machine Learning, Kalbis
Institute
17
Coding Time !

18
Asset File

https://drive.google.com/file/d/1KjoIpavUyLdxfkEg17sE
ZoYd0VAXpRxO/view?usp=sharing

19
20

Patching SQL Server Scenarios
100% (1)
Patching SQL Server Scenarios
5 pages
Introduction To Managing Information & Technology
No ratings yet
Introduction To Managing Information & Technology
6 pages
Quiz 1: C. Select From Pet Where Ownerid in ('O1','O3,'O5')
100% (1)
Quiz 1: C. Select From Pet Where Ownerid in ('O1','O3,'O5')
3 pages
3 Persiapan Data Mining
No ratings yet
3 Persiapan Data Mining
83 pages
D06A Data Preprocessing
No ratings yet
D06A Data Preprocessing
25 pages
Romi DM 03 Persiapan Mar2016
No ratings yet
Romi DM 03 Persiapan Mar2016
82 pages
Data Mining Pertemuan 6
No ratings yet
Data Mining Pertemuan 6
28 pages
Dwina DM 03 Persiapan 2018
No ratings yet
Dwina DM 03 Persiapan 2018
82 pages
Unsia - Data Mining Pertemuan 9
No ratings yet
Unsia - Data Mining Pertemuan 9
39 pages
DSF - Data Preprocessing
No ratings yet
DSF - Data Preprocessing
20 pages
Kuliah 2 - Data Dan Eksplorasi Data
No ratings yet
Kuliah 2 - Data Dan Eksplorasi Data
61 pages
CH 3
No ratings yet
CH 3
34 pages
DM Chapter 3
No ratings yet
DM Chapter 3
60 pages
Chapter 3& 4
No ratings yet
Chapter 3& 4
60 pages
Datapreparation
No ratings yet
Datapreparation
59 pages
Mastering Data Science: From Basics to Expert Proficiency
From Everand
Mastering Data Science: From Basics to Expert Proficiency
William Smith
No ratings yet
Data - Part 1
No ratings yet
Data - Part 1
58 pages
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet
Chapter 3 Data Preparation
100% (1)
Chapter 3 Data Preparation
34 pages
2 DM DataPreprocessing
No ratings yet
2 DM DataPreprocessing
43 pages
PYTHON DATA ANALYTICS: Mastering Python for Effective Data Analysis and Visualization (2024 Beginner Guide)
From Everand
PYTHON DATA ANALYTICS: Mastering Python for Effective Data Analysis and Visualization (2024 Beginner Guide)
FLOYD BAX
No ratings yet
2 DM Datapreprocessing
No ratings yet
2 DM Datapreprocessing
41 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
Data Mining - Lecture 2
No ratings yet
Data Mining - Lecture 2
23 pages
Aiml Data Preprocessing
No ratings yet
Aiml Data Preprocessing
99 pages
Machine Learning Lecture 4 Data Types
No ratings yet
Machine Learning Lecture 4 Data Types
21 pages
2 Data Pre-Processing
No ratings yet
2 Data Pre-Processing
50 pages
3 DSEngineering
No ratings yet
3 DSEngineering
64 pages
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
No ratings yet
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
88 pages
COS10022 - Lecture 03 - Data Preparation PDF
No ratings yet
COS10022 - Lecture 03 - Data Preparation PDF
61 pages
Lec 1 Data Acquisition and Preprocessing
No ratings yet
Lec 1 Data Acquisition and Preprocessing
8 pages
Session 2 - Data Pre-Processing
No ratings yet
Session 2 - Data Pre-Processing
19 pages
Data Preprocessing 09112023 065121pm
No ratings yet
Data Preprocessing 09112023 065121pm
30 pages
Data Preparation
No ratings yet
Data Preparation
21 pages
Preprocessing
No ratings yet
Preprocessing
50 pages
Chapter 2
No ratings yet
Chapter 2
22 pages
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
From Everand
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
Matthew Rosch
No ratings yet
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Machine Learning
No ratings yet
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Machine Learning
35 pages
Unit 2 Data Gathering
No ratings yet
Unit 2 Data Gathering
14 pages
Data Preparation: KIT306/606: Data Analytics A/Prof. Quan Bai University of Tasmania
No ratings yet
Data Preparation: KIT306/606: Data Analytics A/Prof. Quan Bai University of Tasmania
49 pages
Data Preprocessing 1 - Annotated
No ratings yet
Data Preprocessing 1 - Annotated
23 pages
Machine Learning Chapter 2
No ratings yet
Machine Learning Chapter 2
37 pages
Correlation
No ratings yet
Correlation
14 pages
Building a Product Master
From Everand
Building a Product Master
Edufdev
No ratings yet
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
33 pages
Data Preprocessing
No ratings yet
Data Preprocessing
12 pages
03preprocessing Part1
No ratings yet
03preprocessing Part1
21 pages
Unit-I Da
No ratings yet
Unit-I Da
42 pages
M2 PPT
No ratings yet
M2 PPT
60 pages
Data Mining Assignment
No ratings yet
Data Mining Assignment
8 pages
DWDM Unit 3
No ratings yet
DWDM Unit 3
16 pages
Data Mining P5
No ratings yet
Data Mining P5
32 pages
DMML Notes
No ratings yet
DMML Notes
89 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
Types of Data in Data Mining
No ratings yet
Types of Data in Data Mining
16 pages
3 Preprocessing
No ratings yet
3 Preprocessing
27 pages
UNIT 3 Data Preprocessing
No ratings yet
UNIT 3 Data Preprocessing
22 pages
Touchpad Plus Ver. 1.1 Class 7
From Everand
Touchpad Plus Ver. 1.1 Class 7
Nisha Batra
No ratings yet
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
2 Data Preprocessing
No ratings yet
2 Data Preprocessing
57 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
40.cleaning Data
No ratings yet
40.cleaning Data
20 pages
ML Lecture 5 Data Quality
No ratings yet
ML Lecture 5 Data Quality
19 pages
R12 DMZ Configuration
No ratings yet
R12 DMZ Configuration
6 pages
Standby Database Checklist: 1. Overview
No ratings yet
Standby Database Checklist: 1. Overview
13 pages
CTTL 20239
No ratings yet
CTTL 20239
43 pages
Data Science Description
No ratings yet
Data Science Description
2 pages
Flight Management Project Flow Diagram
No ratings yet
Flight Management Project Flow Diagram
1 page
Psoc 3 and Psoc 5Lp - Getting Started With Dma
No ratings yet
Psoc 3 and Psoc 5Lp - Getting Started With Dma
32 pages
Narrative Report
No ratings yet
Narrative Report
19 pages
SQL Final Project Requirements
No ratings yet
SQL Final Project Requirements
5 pages
Assaraf, O. B.-Z., and Orion, N. 2005. Development of System Thinking Skills in The Context of Earth System Education
No ratings yet
Assaraf, O. B.-Z., and Orion, N. 2005. Development of System Thinking Skills in The Context of Earth System Education
44 pages
Apache iBATIS Persistenz Leicht (Er) Gemacht: Guido Schmutz
No ratings yet
Apache iBATIS Persistenz Leicht (Er) Gemacht: Guido Schmutz
76 pages
Veeam Backup 10 0 User Guide Hyperv
No ratings yet
Veeam Backup 10 0 User Guide Hyperv
1,410 pages
Windowing Functions in Databricks 1736450539
No ratings yet
Windowing Functions in Databricks 1736450539
23 pages
Data Structures and Object Oriented Programming in C++
No ratings yet
Data Structures and Object Oriented Programming in C++
13 pages
Database Systems
No ratings yet
Database Systems
13 pages
SPARK Internals
No ratings yet
SPARK Internals
13 pages
3rd Quarter - Research 1
No ratings yet
3rd Quarter - Research 1
3 pages
Ip Mysql
No ratings yet
Ip Mysql
10 pages
Burrough Peter A y McDonnell Rachael A (1998) Principles of Geographical Information Systems PDF
100% (1)
Burrough Peter A y McDonnell Rachael A (1998) Principles of Geographical Information Systems PDF
19 pages
Diagnostic Info ADVM-ACFS & ASMCA
No ratings yet
Diagnostic Info ADVM-ACFS & ASMCA
11 pages
Talend + SQL + Datawarehousing - Beginner To Prof
No ratings yet
Talend + SQL + Datawarehousing - Beginner To Prof
1 page
Data Ingestion On A Budget
No ratings yet
Data Ingestion On A Budget
68 pages
Module V: Data Recovery and Protection
No ratings yet
Module V: Data Recovery and Protection
47 pages
Linked Lists
No ratings yet
Linked Lists
5 pages
Srs Main Icg Akash
No ratings yet
Srs Main Icg Akash
22 pages
Sorting and Reversing A Linked List
No ratings yet
Sorting and Reversing A Linked List
4 pages
20SDS803 - Big Data Analytics
No ratings yet
20SDS803 - Big Data Analytics
2 pages
The Value of Big Data in Servitization: David Opresnik, Marco Taisch
No ratings yet
The Value of Big Data in Servitization: David Opresnik, Marco Taisch
11 pages

Pengenalan Beragam Macam Data

Uploaded by

Pengenalan Beragam Macam Data

Uploaded by

Exploratory Data Analysis

Part 1 Part 3 Part 5

Data Spasial yaitu sebuah data yang

Data yang bersifat continue, terurut, selalu berubah,

Contoh penerapan data stream: Video

Data yang bersifat terurut, dengan

Contoh penerapan data stream:

Data yang bersifat terurut, tanpa

Contoh sequential data: Urutan

Gene Expression Data

• Jiawei Han and Micheline Kamber, Data Mining:

Part 1 Part 3 Part 5

➢ Adanya data yang Incomplete (Kurangnya atribut nilai pada

➢ Memiliki Noisy (Mengandung kesalahan, nilai outlier yang

➢ Incosistent Data (Ketidak konsistenan pada data, seperti

• Incomplete Data, bisa terjadi karena

• Penyebab Incomplete Data, biasanya

• Noisy Data, merupakan kesalahan pada

• Incosistent Data, merupakan ketidak konsistenan pada data,

• Penyebab Incosistent Data:

Tujuan utama dari Pre processing adalah untuk

Data Cleaning Data Integration Data Selection Data Transformation

Tugas utama pada Data Cleaning:

• Menangani nilai Missing Values.

• Most Frequent (Modus)

• Delete / Drop Row

Pemilihan cara penanganan Missing Values

Penanganan Outliers biasanya nilai outliers / pencilan

Akan tetapi terdapat pengecualian dalam data medis,

• Menggabungkan dari berbagai macam sumber data. Terdapat

Proses untuk mengurangi data yang kompleks / besar ke dalam

• Proses untuk mengubah struktur atau informasi dalam data.

• Seperti contoh berikut ini, suatu variabel nama_jalan dapat dipecah

• Jiawei Han and Micheline Kamber, Data Mining:

Part 1 Part 3 Part 5

Petunjuk Penggunaan Pie Chart

Vertical Bar Chart Horizontal Bar Chart

Gunakan horizontal label. Jarak antar bar lebih baik

Sumbu Y harus dimulai dari Urutkan berdasarkan

Multi serial data jangan Gunakan garis yang jelas, garis

Sumbu Y harus dimulai dari Pelabelan langsung

Jangan gunakan Multiple Pie Chart

Pastikan semuanya 100%. Gunakan tanda angka sebagai

Scatter Plot menunjukkan relasi atau hubungan antara dua variabel.

Sumbu Y harus dimulai dari Jangan bandingkan

Heat Map menggambarkan dari categorical data menggunakan intensitas warna

Hindari outline yang terlalu Pilih warna yang kira-kira

Gunakan range yang

Part 1 Part 3 Part 5

Data Spasial yaitu sebuah data yang

• Mengetahui lokasi yang strategis

• Michael Kennedy (2013). Introducing Geographic Information Systems With ArcGIS,

Part 1 Part 3 Part 5

Attribute / Variable / Feature

Label / Class / Target

How to know the result?

Sunny Hot Normal False ?

Attribute / Variable / Feature

How to know the label?

Sunny Hot Normal False

Regression Linear Regression

• Jiawei Han and Micheline Kamber, Data Mining:

You might also like