0% menganggap dokumen ini bermanfaat (0 suara)
33 tayangan

Business Understanding, Data Understanding, Data Preprocessing, Learning Methods

Diunggah oleh

archivitydaily
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
33 tayangan

Business Understanding, Data Understanding, Data Preprocessing, Learning Methods

Diunggah oleh

archivitydaily
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 110

GTA – DATA SCIENCE FUNDAMENTAL

BUSINESS UNDERSTANDING, DATA UNDERSTANDING,


DATA PREPROCESSING, LEARNING METHODS
1 PERKEMBANGAN
DATA SCIENCE
B u i l d b e t t e r p r e s e n ta t i o n s i n l e s s t i m e

DTS 2021 #Jadijagoandigital


Data
Explosion

DTS 2021 #Jadijagoandigital


1991 2010 2013 2018 2019 2020 2025

First World 90% data 168 ZB


Wide Web created in created
Page 2011-2012 IN A MINUTE
2 ZB data 188M emails
created 4,5M videos
33 ZB data 500hours video 47 ZB data
created uploaded’ created
347K users scrolling
Instagram

Seedscientific
(2020) & statista
(2019)

DTS 2021 #Jadijagoandigital


DTS 2021 https://www.servercake.in/ #Jadijagoandigital
We are drowning in but starving for

John Naisbitt, Megatrends, 1988

DTS 2021 #Jadijagoandigital


DTS 2021 #Jadijagoandigital
DTS 2021 #Jadijagoandigital
Data Mining
Cikal bakal data science

• Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan


atau menemukan pola dari suatu data yang besar.
• Ekstraksi dari data ke pengetahuan:
1. Data: fakta yang terekam dan tidak membawa arti
2. Informasi: Rekap, rangkuman, penjelasan, visualisasi dan statistik dari
data
3. Pengetahuan: pola, rumus, aturan atau model yang muncul dari data

DTS 2021 #Jadijagoandigital


DTS 2021 #Jadijagoandigital
Konsep Proses Data Mining

DTS 2021 #Jadijagoandigital


Data Mining
Cikal bakal data science

Data harus diolah menjadi pengetahuan agar bisa bermanfaat untuk manusia.

Dengan pengetahuan tersebut, manusia dapat :

• Melakukan estimasi dan prediksi apa yang terjadi di depan

• Melakukan analisis tentang asosiasi, korelasi, dan pengelompokan antar data


dan atribut.

• Membantu pengambilan keputusan dan pembuatan kebijakan.

DTS 2021 #Jadijagoandigital


Data Mining
Cikal bakal data science

• Ribuan data dapat diambil dari sistem informasi

• Apakah pernah mengkompilasi data menjadi informasi? YA!

• Apakah pernah kita ubah menjadi pengetahuan yang lebih


bermanfaat? TIDAK!

• Seperti apa pengetahuan itu? Rumus, Pola, Aturan

DTS 2021 #Jadijagoandigital


Contoh Data
Contoh Data di KampusMahasiswa

DTS 2021 #Jadijagoandigital


Pola Prediksi Kelulusan Mahasiswa

DTS 2021 #Jadijagoandigital


Contoh Data di Komisi Pemilihan Umum

DTS 2021 #Jadijagoandigital


Prediksi Calon Legislatif DKI Jakarta

DTS 2021 #Jadijagoandigital


Profiling dan Prediksi Koruptor

DTS 2021 #Jadijagoandigital


Pola Profil Tersangka Koruptor

DTS 2021 #Jadijagoandigital


Common Apps Smart Apps

• Sistem Prediksi
• Sistem Informasi Kelulusan
Akademik Mahasiswa
• Sistem Pencatatan • Sistem Prediksi Hasil
Pemilu Pemilu
• Sistem Laporan • Sistem Prediksi
Kekayan Pejabat Koruptor
• Sistem Pencatatan • Sistem Penentu
Kredit Kelayakan Kredit

DTS 2021 #Jadijagoandigital


DTS 2021 #Jadijagoandigital
Pelopor Data Science
William S. Cleveland
Cleveland defined data science as it is used
today in a talk at the 1999 biennial meeting of
the International Statistical Institute, and in a
2001 paper. He has developed many methods
for data visualization, statistical model building,
and machine learning that are now widely used
by researchers in all of the major disciplines of
engineering and the physical, biological, health,
and social sciences.

https://www.cs.purdue.edu/people/faculty/wsc.html

DTS 2021 #Jadijagoandigital


DTS 2021 #Jadijagoandigital
DATA MINING + COMPUTER SCIENCE

= DATA SCIENCE

DTS 2021 #Jadijagoandigital


Evolution of Sciences
• Sebelum 1600: Empirical science
• Disebut sains kalau bentuknya kasat mata
• 1600-1950: Theoretical science
• Disebut sains kalau bisa dibuktikan secara matematis atau eksperimen
• 1950s-1990: Computational science
• Seluruh disiplin ilmu bergerak ke komputasi
• Lahirnya banyak model komputasi
• 1990-sekarang: Data science
• Kultur manusia menghasilkan data besar
• Kemampuan komputer untuk mengolah data besar
• Datangnya data mining sebagai arus utama sains

(Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science, Communication
of ACM, 45(11): 50-54, Nov. 2002)

DTS 2021 #Jadijagoandigital


Masalah-Masalah di Data Science

1. Jumlah data yang sangat besar

• Algoritma harus dapat menangani data dalam ukuran tera-bytes


secara terskalakan (dapat menangani penambahan beban tanpa
mengurangi penurunan kinerja yang berarti)

2. Data berdimensi tinggi

• Array yang memiliki ribuan dimensi

DTS 2021 #Jadijagoandigital


Masalah-Masalah di Data Science
3. Kompleksitas Data yang tinggi
• Data streams and sensor data
• Time-series data, temporal data, sequence data
• Structure data, graphs, social networks and multi-linked data
• Heterogeneous databases and legacy databases
• Spatial, spatiotemporal, multimedia, text and Web data
• Software programs, scientific simulation
4. Aplikasi baru yang lebih canggih

DTS 2021 #Jadijagoandigital


Task and Roles
Increase potential values
to support business Decision End User
decision Making

Data Presentation Business Analyst


Visualization Techniques

Data Science
Information Discovery and Modelling Data Scientist
Data Exploration
Statistical Summary, Metadata, and Description

Data Preprocessing, Data Integration, Data Warehouses


IT/DBA
Data Sources
Paper, Filer, Web documents, Scientific experiments, Database Systems

DTS 2021 #Jadijagoandigital


Data Science
Data science is an advanced
data mining; an
interdisciplinary field that uses
scientific methods, processes,
algorithms and systems
to extract knowledge and
insights from structured and
unstructured data, and apply
knowledge and actionable
insights from data across a
broad range of application
domains.

DTS 2021 #Jadijagoandigital


Machine Learning
• Machine learning is a set
of
methods for
automatically detecting
patterns in data and
using them for predicting
future data and guiding
decision making. In other
words, learning from
data.

DTS 2021 #Jadijagoandigital


Deep Learning

DTS 2021 #Jadijagoandigital


Artificial Intelligence

DTS 2021 #Jadijagoandigital


OpenAI GPT-3

DTS 2021 #Jadijagoandigital


Hubungan Data Science dan Bidang Lain

Statistics

Computing
Pattern Algorithms
Recognition

DATA
SCIENCE
Machine Database
Learning Technology

DTS 2021 #Jadijagoandigital


Latihan

1. Jelaskan dengan kalimat sendiri apa yang dimaksud


dengan data science?
2. Sebutkan konsep alur proses data mining!

DTS 2021 #Jadijagoandigital


PERAN
2 DATA SCIENCE
METODE DAN ALGORITMA
(LEARN
B u i lIdN
b e tG
t e r pM
r e s eE Tt iH
n ta o n sO
in D
l e s sS )e
tim

DTS 2021 #Jadijagoandigital


Data Science Values
• help companies make faster, more
intelligent decisions

• can help a company to gain useful insight


to increase revenues, get or retain
customers, and improve operations

• making decision based on knowledge /


patterns / insights discovered from data

• actionable knowledge that creates values

DTS 2021 #Jadijagoandigital


Peran Utama Data Mining

1 Estimasi

2 Forecasting

3 Klasifikasi

4 Klastering

5 Asosiasi

DTS 2021 #Jadijagoandigital


DTS 2021 #Jadijagoandigital
Himpunan Data (Dataset)

DTS 2021 #Jadijagoandigital


Tipe Data Tipe Data

DTS 2021 #Jadijagoandigital


Tipe Data Deskripsi Contoh Operasi
Ratio • Data yang diperoleh dengan cara pengukuran, • Umur Geometric mean,
(Mutlak) dimana jarak dua titik pada skala sudah • Berat badan harmonic mean,
diketahui • Tinggi badan percent variation
• Mempunyai titik nol yang absolut • Jumlah uang
(*, /)
Interval • Data yang diperoleh dengan cara pengukuran, • Suhu 0°c-100°c, mean, standard
(Jarak) dimana jarak dua titik pada skala sudah • Umur 20-30 deviation, Pearson's
diketahui tahun correlation, t and F
• Tidak mempunyai titik nol yang absolut tests
(+, - )
Ordinal • Data yang diperoleh dengan cara kategorisasi Tingkat kepuasan median,
(Peringkat) atau klasifikasi pelanggan (puas, percentiles, rank
• Tetapi diantara data tersebut terdapat sedang, tidak puas) correlation, run
hubungan atau berurutan tests, sign tests
(<, >)
Nominal • Data yang diperoleh dengan cara kategorisasi • Kode pos mode, entropy,
(Label) atau klasifikasi • Jenis kelamin contingency
• Menunjukkan beberapa object yang berbeda • Nomer id correlation, X2
(=, ) karyawan test
• Nama kota
DTS 2021 #Jadijagoandigital
Peran Utama Data Mining

1 Estimasi

2 Forecasting

3 Klasifikasi

4 Klastering

5 Asosiasi

DTS 2021 #Jadijagoandigital


1. Estimasi Waktu Pengiriman Makanan

DTS 2021 #Jadijagoandigital


2. Forecasting Harga Saham

DTS 2021 #Jadijagoandigital


DTS 2021 #Jadijagoandigital
3. Klasifikasi Kelulusan Mahasiswa

DTS 2021 #Jadijagoandigital


Pengetahuan Berupa Pohon Keputusan

DTS 2021 #Jadijagoandigital


4. Klastering Bunga Iris

DTS 2021 #Jadijagoandigital


Pengetahuan (Model) berupa klaster

DTS 2021 #Jadijagoandigital


Klastering Jenis Pelanggan

DTS 2021 #Jadijagoandigital


5. Aturan Asosiasi Pembelian Barang

DTS 2021 #Jadijagoandigital


Pengetahuan Berupa Aturan Asosiasi

DTS 2021 #Jadijagoandigital


Contoh Aturan Asosiasi
• Algoritma association rule (aturan asosiasi) adalah algoritma yang
menemukan atribut yang “muncul bersamaan”
• Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan belanja
di supermaket ABC, dimana:
• 200 orang membeli Sabun Mandi
• dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta
• Jadi, association rule menjadi, “Jika membeli sabun mandi, maka
membeli Fanta”, dengan nilai support = 200/1000 = 20% dan nilai
confidence = 50/200 = 25%
• Algoritma association rule diantaranya adalah: Apriori algorithm, FP-
Growth algorithm, GRI algorithm

DTS 2021 #Jadijagoandigital


Output/Pola/Model/Knowledge

1. Formula/Function (Rumus atau Fungsi Regresi)


• Waktu Tempuh = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)


3. Tingkat Korelasi
4. Rule (Aturan)
• IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)

DTS 2021 #Jadijagoandigital


Contoh Algoritma yang dipakai
1. Estimation (Estimasi):
Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support
Vector Machine (SVM), Generalized Linear Model (GLM), dll
2. Forecasting (Prediksi/Peramalan):
Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support
Vector Machine (SVM), Generalized Linear Model (GLM), dll
3. Classification (Klasifikasi)
Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptative Credal C4.5),
Naive Bayes (NB), K-Nearest Neighbor (kNN), Linear Discriminant Analysis
(LDA), Logistic Regression (LogR), dll
4. Clustering (Klastering)
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means (FCM), dll
5. Association (Asosiasi)
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, dll

DTS 2021 #Jadijagoandigital


Kategorisasi Algoritma Data Mining
(Learning Methods)

Supervised Semi-
Supervised Unsupervised
Learning Learning Learning

Association based
Learning

DTS 2021 #Jadijagoandigital


1. Supervised Learning
• Pembelajaran dengan guru, data set memiliki target/label/class
• Sebagian besar algoritma data mining (estimation,
prediction/forecasting, classification) adalah supervised learning
• Algoritma melakukan proses belajar berdasarkan nilai dari variabel
target yang terasosiasi dengan nilai dari variable prediktor

DTS 2021 #Jadijagoandigital


Dataset dengan Label

DTS 2021 #Jadijagoandigital


DTS 2021 #Jadijagoandigital
2. Unsupervised Learning

• Algoritma data mining mencari pola dari semua variable (atribut)


• Variable (atribut) yang menjadi target/label/class tidak ditentukan
(tidak ada)
• Algoritma clustering adalah algoritma unsupervised learning

DTS 2021 #Jadijagoandigital


Dataset tanpa Label

DTS 2021 #Jadijagoandigital


DTS 2021 #Jadijagoandigital
3. Semi-Supervised Learning
• Semi-supervised learning adalah
metode data mining yang
menggunakan data dengan label
dan tidak berlabel sekaligus dalam
proses pembelajarannya
• Data yang memiliki kelas
digunakan untuk membentuk
model (pengetahuan), data tanpa
label digunakan untuk membuat
batasan antara kelas

DTS 2021 #Jadijagoandigital


Contoh Penerapan Data Science

DTS 2021 #Jadijagoandigital


Latihan
1. Sebutkan 5 peran utama data mining!
2. Jelaskan perbedaan estimasi dan forecasting!
3. Jelaskan perbedaan forecasting dan klasifikasi!
4. Jelaskan perbedaan klasifikasi dan klastering!
5. Jelaskan perbedaan klastering dan association!
6. Jelaskan perbedaan estimasi dan klasifikasi!
7. Jelaskan perbedaan estimasi dan klastering!
8. Jelaskan perbedaan supervised dan unsupervised learning!
9. Sebutkan tahapan utama proses data mining!

DTS 2021 #Jadijagoandigital


3 BUSINESS AND DATA
UNDERSTANDING
B u i l d b e t t e r p r e s e n ta t i o n s i n l e s s t i m e

DTS 2021 #Jadijagoandigital


Data Mining Lifecycle

▪ Business Understanding
▪ Data Understanding
▪ Data Preparation
▪ Modeling
▪ Evaluation
▪ Deployment

Notice the iteration!

THE FAMOUS CRISP-DM

DTS 2021 #Jadijagoandigital


The Big Question: Business or data first first?

DTS 2021 #Jadijagoandigital


Business Understanding

▪ Determine business objectives


▪ Asses Situation
▪ Determine Data Mining Goals
▪ Produce Project Plan
▪ It is a first challenge
▪ Sometimes, you need to learn new
field/domain problem

DTS 2021 #Jadijagoandigital


Data Understanding

▪ Collect Initial Data


▪ Describe Data
▪ Explore Data
▪ Verify Data Quality
▪ Spot and Understands Anomalies and Outliers
▪ Understanding Variables, discovering relationship
▪ EDA and Visualizations

DTS 2021 #Jadijagoandigital


Internal and External Data Sources

That hierarchy you should


look at the data:

1. Internal structured data


2. Internal semi-structured
3. Internal unstructured
4. External structured
5. External unstructured.

DTS 2021 #Jadijagoandigital


Seven main ways of collecting data

1. Created data: market research surveys, focus groups or employee


surveys, loyalty programs, usually structured or semi-structured and
can be internal or external.
2. Provoked data: it wouldn't exist unless you invited people to
express their views, like five star system rating, usually structured or
semi-structured and can be internal or external.
3. Transaction data: generated every time a customer buys
something, is usually internal structured data
4. Compiled data: from the giant databases that that compile vast
amounts of data from different sources, usually external structured
data.

DTS 2021 #Jadijagoandigital


Seven main ways of collecting data

5. Experimental data: hybrid of created and transacted data, different customer


sets receive different marketing treatments (created) and observing the results
in the real world (transaction), usually structured or semi-structured and can
be internal or externa

6. Captured data: GPS data, sensors, IoT, usually unstructured and can be
internal or external
7. User-generated data: individuals and companies generate consciously – or at
least knowingly, usually unstructured and can be internal or external.

DTS 2021 #Jadijagoandigital


Data Quality Attributes

Guide to Data Quality Management: Metrics, Process and Best Practices


(scnsoft.com)

DTS 2021 #Jadijagoandigital


15 MINUTES

COFFEE BREAK

DTS 2021 #Jadijagoandigital


Instalasi Tools
Jika belum menginstal RapidMiner,
disarankan menginstal melalui link:

https://rapidminer.com/get-started/

DTS 2021 #Jadijagoandigital


4 DATA
PREPROCESSING
B u i l d b e t t e r p r e s e n ta t i o n s i n l e s s t i m e

DTS 2021 #Jadijagoandigital


“Data preparation is more than
half of every data mining
process”

DTS 2021 #Jadijagoandigital


Proses Data Mining

DTS 2021 #Jadijagoandigital


Why we need It
Real World Data are Dirty

• Tidak Lengkap (banyak data kosong)


• Noisy / banyak outlier
• Tidak Berkualitas (tidak konsisten, tidak akurat, dll)

Some Information are hidden within data

• Informasi dapat diekstrak dari data yang ada (umur dapat dihitung dari tanggal lahir)
• Kadang informasi pada data harus disajikan secara eksplisit untuk meningkatkan
performa model

Machine learning model’s performance depends on data

• Beberapa hanya bisa memproses data dalam bentuk numerical


• Sensitif terhadap outlier
• Beberapa model memiliki persyaratan (4 asumsi klasik linear model, NN butuh data
pada range 0-1)

DTS 2021 #Jadijagoandigital


Why Data can be Dirty
• Respondents did not respond on survey
• Values were not available on data entry
Missing data
• Loss in transit.
• Data entry error

• Faulty data collection instruments


• Data entry problems
Data Noise • Data transmission problems
• Technology limitation
• Inconsistency in naming convention

• Duplicate records
Other Data
• Incomplete data
Problems
• Inconsistent data

DTS 2021 #Jadijagoandigital


Some Data Pre-Processing Tasks

Features Features
Data Cleaning Data Reduction
Extraction Transformation

• Fill in missing • Derived • Normalize/ • Dimensionality


values Features Standardize reduction
• Smooth noisy • Encoding • Scaling (Select
data • Binning • Box Cox Features)
• Identify or • Vectorizer Transformation • Numerosity
remove (Power / Log / reduction
• Textual and
outliers Square root) (Select Rows)
datetime data
• Resolve can generate a • Data
inconsistencies lot of features compression

DTS 2021 #Jadijagoandigital


Data Cleaning

Remove Rows / Model based


Value Imputation
Columns Imputation

mode / most frequent


remove column if n
(categorical)
missing rows >> n
rows
mean / median Use other features to
(numerical) predict missing rows
remove row if n
missing rows << n
Random / defined
rows
value

DTS 2021 #Jadijagoandigital


Contoh Missing Data

Dataset: Missingdataset.csv

DTS 2021 #Jadijagoandigital


Bagaimana Mengolah Missing Data?

Fill in the missing Fill in it


value manually automatically with
Ignore the tuple • Melelahkan dan tidak • A global constant
mungkin • The attribute mean
• The most probable
value

DTS 2021 #Jadijagoandigital


MissingDataset.csv

• Jerry adalah marketing manager dari perusahaan design dan


advertising
• Boss jerry meminta untuk membuat data mengenai prilaku
pengguna internet (seperti: browser , social media yg digunakan,
lama waktu yg dihabiskan, dst)
• Perusahaan tersebut akan menggunakan data tsb untuk
menentukan Orang seperti apa yang paling banyak menggunakan
internet dan bagaimana perusahaan kedepannya akan mejual
layanannya untuk sekelompok orang tsb
• Lalu, Jerry membuat online survey (cth: Google Form,
SurveyMonkey)
DTS 2021 #Jadijagoandigital
MissingDataset.csv

• Dalam dua minggu, jerry dapat mengumpulkan data yang bisa


untuk di analisa, namun data tersebut harus dilakukan
denormalized
• Selain itu terdapat juga data yang nilainya kosong atau berisi nilai
yang salah (invalid values)
• Jerry menyadari bahwa terdapat beberapa proses yang harus
dilakukan sebelum data tersebut di analisis

DTS 2021 #Jadijagoandigital


View Data (Denormalized Data)

Join table

DTS 2021 #Jadijagoandigital


Latihan Preprocessing dengan Rapidminer

• Import Data MissingDataset.csv


• Pindahkan MissingDataSet ke
halaman process

DTS 2021 #Jadijagoandigital


Latihan Preprocessing dengan Rapidminer

• Klik Run

DTS 2021 #Jadijagoandigital


Latihan Preprocessing dengan Rapidminer

• Lihat Pada Bagian Statistic


terdapat data yang missing

DTS 2021 #Jadijagoandigital


Cara 1: Buang Data

• Tambahkan “Filter Example”


• Ubah parameter
“no_missing_attributes”

DTS 2021 #Jadijagoandigital


Cara 1: Buang Data (cont.)

• Maka Hasilnya akan seperti ini

Hal ini terjadi karena atribut yang missing berada di beberapa tempat
(cara ini tidak bisa digunakan karna data tidak bisa di mining)

DTS 2021 #Jadijagoandigital


Cara 2: Mengganti value yang kosong

• Enable terlebih dahulu “filter example”


• Ganti dengan “replace missing value”

DTS 2021 #Jadijagoandigital


Cara 2: Mengganti value yang kosong (cont.)

• Jika dibandingkan hasil data sebelum di replace

DTS 2021 #Jadijagoandigital


Cara 2: Mengganti value yang kosong (cont.)

• Data sesudah

DTS 2021 #Jadijagoandigital


Cara 2: Mengganti value yang kosong (cont.)

• Missing value sudah terisi

DTS 2021 #Jadijagoandigital


Noisy Data
• Noise: random error or variance in a measured variable
• Incorrect attribute values may be due to:
▪ Faulty data collection instruments
▪ Data entry problems
▪ Data transmission problems
▪ Technology limitation
▪ Inconsistency in naming convention
• Other data problems which require data cleaning:
▪ Duplicate records
▪ Incomplete data
▪ Inconsistent data

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data
• Import data MissingDataSet-Noisy-Multiple.csv
• Pindahkan ke process

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data (Cont.)
• Jika dilihat diresult terdapat data yang tidak sesuai pengisiannya

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data (Cont.)
• Jika dilihat diresult terdapat data yang tidak sesuai pengisiannya

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data (Cont.)
• Ubah data yang tidak sesuai dengan menambahkan “replace”

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data (Cont.)
• Ubah parameter replace dengan aturan berikut

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data (Cont.)
• Tambahkan “replace missing value” untuk menghilangkan data
yang missing

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data (Cont.)
• Jika dilihat masi terdapat noisy data

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data (Cont.)
• Ubah data tsb jadi “Facebook” dengan menambahkan “Map”

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data (Cont.)
• Ganti value Mapping pada map dengan aturan berikut ini:

DTS 2021 #Jadijagoandigital


Cara mengatasi Noisy Data (Cont.)
• Maka akan data akan terlihat seperti ini:

DTS 2021 #Jadijagoandigital


#Jadijagoandigital
Terima Kasih

DTS 2021 #Jadijagoandigital

Anda mungkin juga menyukai