0% found this document useful (0 votes)
191 views142 pages

Datascience Apr2021

The document provides biographical and professional details about Romi Satria Wahono, including his educational background, areas of expertise, experience founding several companies, advisory roles, and research focus on enterprise architecture, software engineering, and machine learning. It lists some of his accomplishments, such as being an inventor of integrated enterprise architecture frameworks and receiving awards from various organizations for his IT and research work.
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
191 views142 pages

Datascience Apr2021

The document provides biographical and professional details about Romi Satria Wahono, including his educational background, areas of expertise, experience founding several companies, advisory roles, and research focus on enterprise architecture, software engineering, and machine learning. It lists some of his accomplishments, such as being an inventor of integrated enterprise architecture frameworks and receiving awards from various organizations for his IT and research work.
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 142

Data Science

Trends 2021
Romi Satria Wahono
[email protected]
http://romisatriawahono.net
http://youtube.com/RomiSatriaWahono
08118228331

1
Romi Satria Wahono
• SMA Taruna Nusantara Magelang (1993)
• B.Eng, M.Eng & Ph.D in Software Engineering
Saitama University Japan (1994-2004)
Universiti Teknikal Malaysia Melaka (2014)
• Core Competency in Enterprise Architecture,
Software Engineering and Machine Learning
• Industrial Certifications: TOGAF, ITIL, PSM, CCAI, CCNA, etc
• LIPI Researcher (2004-2007)
• Founder, CoFounder and CEO:
• IlmuKomputerCom (2003) (Computing eLearning Portal)
• PT Brainmatics Cipta Informatika (2005) (IT Training & Certification)
• PT Imani Prima (2007) (Internet of Things)
• PT IlmuKomputerCom Braindevs Sistema (2014) (EA & Data Science)
• PT Brainmatics Indonesia Cendekia (2020) (IT Teaching Factory)
• Advisory Board of the UGM (DTETI) & Professional Member of IEEE, ACM and PMI
• SCOPUS/ISI Indexed Journal Reviewer: Information and Software Technology, Journal
of Systems and Software, Software: Practice and Experience, etc
• Inventor of the integrated multidimensional Enterprise Architecture (idEA) Framework,
Software Defect Prediction Framework & Software Dev. Governance Framework
• Enterprise Architecture & Digital Transformation Expert: KPK, LNSW, DJPK, BPPT, LIPI,
RistekDikti, UT, ESDM, Kemlu, Pertamina EP, PLN, PJB, PJBI, IP, FIF, etc.
• International IT & Research Award Winners from WSIS (United Nations), Kemdikbud,
Ristekdikti, LIPI, etc.
2
1. Culture

5. Research 2. Mining
Data Science
Trends 2021

4. PROCESS 3. Methods
3
1. Data Culture

4
Manusia Memproduksi Data
Manusia memproduksi beragam
data yang jumlah dan ukurannya
sangat besar
• Astronomi
• Bisnis
• Kedokteran
• Ekonomi
• Olahraga
• Cuaca
• Financial
• …

5
Pertumbuhan Data kilobyte (kB) 103
megabyte (MB) 106
Astronomi gigabyte (GB) 109
• Sloan Digital Sky Survey terabyte (TB) 1012
• New Mexico, 2000 petabyte (PB) 1015
• 140TB over 10 years exabyte (EB) 1018
zettabyte (ZB) 1021
• Large Synoptic Survey Telescope yottabyte (YB) 1024
• Chile, 2016
• Will acquire 140TB every five days

Biologi dan Kedokteran


• European Bioinformatics Institute (EBI)
• 20PB of data (genomic data doubles in size each year)
• A single sequenced human genome can be around 140GB in size

6
Perubahan Kultur dan Perilaku

7
Perubahan Kultur dan Perilaku

8
kilobyte (kB) 103
Datangnya Tsunami Data megabyte (MB) 106
gigabyte (GB) 109

• Mobile Electronics market terabyte (TB)


petabyte (PB)
1012
1015
• 7B smartphone subscriptions in 2015 exabyte (EB) 1018
zettabyte (ZB) 1021
yottabyte (YB) 1024

• Web & Social Networks generates amount of data


• Google processes 100 PB per day, 3 million servers
• Facebook has 300 PB of user data per day
• Youtube has 1000PB video storage

9
Kebanjiran Data tapi Miskin Pengetahuan

We are drowning in data,


but starving for knowledge!
(John Naisbitt, Megatrends, 1988)

10
2. Data Mining

11
Mengubah Data Menjadi Pengetahuan
• Data harus kita olah menjadi
pengetahuan supaya bisa bermanfaat
bagi manusia

• Dengan pengetahuan
tersebut, manusia dapat:
• Melakukan estimasi dan prediksi
apa yang terjadi di depan
• Melakukan analisis tentang asosiasi, korelasi dan
pengelompokan antar data dan atribut
• Membantu pengambilan keputusan dan
pembuatan kebijakan

12
13
Data - Informasi – Pengetahuan - Kebijakan

NIP TGL DATANG PULANG


1103 02/12/2004 07:20 15:40
1142 02/12/2004 07:45 15:33
1156 02/12/2004 07:51 16:00
1173 02/12/2004 08:00 15:15
1180 02/12/2004 07:01 16:31
1183 02/12/2004 07:49 17:00

Data Kehadiran Pegawai


14
Data - Informasi – Pengetahuan - Kebijakan

NIP Masuk Alpa Cuti Sakit Telat

1103 22

1142 18 2 2

1156 10 1 11

1173 12 5 5

1180 10 12

Informasi dan Statistik Akumulasi Bulanan Kehadiran Pegawai


15
Data - Informasi – Pengetahuan - Kebijakan

Senin Selasa Rabu Kamis Jumat

Terlambat 7 0 1 0 5

Pulang 0 1 1 1 8
Cepat
Izin 3 0 0 1 4

Alpa 1 0 2 0 2

Pola Kebiasaan Kehadiran Mingguan Pegawai


16
Data - Informasi – Pengetahuan - Kebijakan

• Kebijakan penataan jam kerja karyawan khusus


untuk hari senin dan jumat

• Peraturan jam kerja:


• Hari Senin dimulai jam 10:00
• Hari Jumat diakhiri jam 14:00
• Sisa jam kerja dikompensasi ke hari lain

17
Data - Informasi – Pengetahuan - Kebijakan

Kebijakan Penataan Jam


Kebijakan Kerja Pegawai

Pola Kebiasaan Datang-


Pengetahuan Pulang Pegawai

Informasi Informasi & Statistik


Kehadiran Pegawai

Data 18
Data Absensi Pegawai
Data - Informasi – Pengetahuan - Kebijakan

19
Data Mining

Data
Himpunan
Mining Knowledge
Data
Methods
Disiplin ilmu yang mempelajari metode untuk menemukan pola,
pengetahuan, formula, aturan, ataupun insight dari suatu data
yang volumenya besar dan jenisnya beraneka ragam
20
Data Mining? Data Science? Big Data?
Jargon? Buzzword?
• Ekstraksi dari data ke pengetahuan:
1. Data: fakta yang terekam dan tidak membawa arti
2. Informasi: Rekap, rangkuman, penjelasan, visualisasi dan
statistik dari data
3. Pengetahuan: pola, rumus, aturan atau model yang
muncul dari data

• Nama lain Data Mining:


• Data Science
• Knowledge Discovery in Database (KDD)
• Big Data
• Business Intelligence
• Knowledge Extraction
• Predictive Analytics
• Pattern Analysis
• Information Harvesting
21
Contoh Data di Kampus
• Puluhan ribu data mahasiswa di kampus yang
diambil dari sistem informasi akademik
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!
• Seperti apa pengetahuan itu? Rumus, Pola, Aturan

22
Kompilasi dan Visualisasi Data Kelulusan
Mahasiswa

• Berapa persen mahasiswa yang


bekerja?
• Berapa persen komposisi mahasiswa
antara laki-laki dan perempuan?
• Bagaimana rata-rata IP Semester
mahasiswa?
• Berapa rata-rata umur mahasiswa?

23
Kompilasi dan Visualisasi Data Kelulusan
Mahasiswa

24
Pola Prediksi Kelulusan Mahasiswa

25
Contoh Data di Komisi Pemilihan Umum
• Puluhan ribu data calon anggota legislatif di KPU
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!

26
Kompilasi dan Visualisasi Data Pemilihan Umum

• Partai mana yang di hampir


seluruh daerah pemilihan paling
unggul?
• Apakah nomor urut dapat
mempengaruhi perolehan suara?
• Dapil mana yang secara umum
suara sah caleg dan suara sah
partai mendominasi?

27
Kompilasi dan Visualisasi Data Pemilihan
Umum

28
Prediksi Calon Legislatif DKI Jakarta

29
Penentuan Kelayakan Kredit
20

15

10 Jumlah kredit
macet
5

0
2003 2004

30
Deteksi Pencucian Uang

31
Prediksi Kebakaran Hutan
FFMC DMC DC ISI temp RH wind rain ln(area+1)
93.5 139.4 594.2 20.3 17.6 52 5.8 0 0
92.4 124.1 680.7 8.5 17.2 58 1.3 0 0
90.9 126.5 686.5 7 15.6 66 3.1 0 0
85.8 48.3 313.4 3.9 18 42 2.7 0 0.307485
91 129.5 692.6 7 21.7 38 2.2 0 0.357674
90.9 126.5 686.5 7 21.9 39 1.8 0 0.385262
95.5 99.9 513.3 13.2 23.3 31 4.5 0 0.438255
12
9,648
10

8
5,9 5,615
6
SVM SVM+GA
4,3
C 4.3 1,840 4
Gamma (𝛾) 5.9 9,648 3,9
1,391
Epsilon (𝜀) 3.9 5,615 1,840
2
RMSE 1.391 1.379
0 1,379
C Gamma Epsilon RMSE
SVM SVM+GA
32
Profiling dan Prediksi Koruptor

Aktivitas Penindakan Prediksi dan klastering


calon tersangka koruptor

Asosiasi atribut
Data tersangka koruptor
Data Data Pengetahuan

Data Prediksi pencucian uang

Estimasi jenis dan


Aktivitas Pencegahan jumlah tahun hukuman

33
Kompilasi dan Visualisasi Data LHKPN

• Bagaimana sebaran rata-rata harta


tanah dan bangunan penyelenggara
negara seluruh provinsi?
• Bagaimana tren jumlah penyelenggara
yang melaporkan LHKPN dari tahun ke
tahun?
• Apakah ada anomali terhadap
perubahan jumlah harta yang
dilaporkan?
34
Kompilasi dan Visualisasi Data LHKPN

35
Pola Profil Tersangka Koruptor

36
Pola Rekomendasi Hasil Pemeriksaan LHKPN

37
Profiling dan Deteksi Kasus TKI

38
Klasifikasi Bantuan Sosial Pangan (BSP)
untuk Pemenuhan Kuota Penerima BSP

39
Klasterisasi Tingkat Kemiskinan

40
Pola Aturan Asosiasi dari Data Transaksi

41
Pola Aturan Asosiasi di Amazon.com

42
From Stupid (CRUD) Apps to Smart (Knowledge) Apps

Stupid Smart
Applications Applications
• Sistem Informasi • Sistem Prediksi
Akademik Kelulusan Mahasiswa
• Sistem Pencatatan • Sistem Prediksi Hasil
Pemilu Pemilu
• Sistem Laporan • Sistem Prediksi
Kekayaan Pejabat Koruptor
• Sistem Pencatatan • Sistem Penentu
Kredit Kelayakan Kredit

43
Revolusi Industri 4.0

44
Perusahaan Pengolah Pengetahuan
• Uber - the world’s largest taxi company,
owns no vehicles
• Google - world’s largest
media/advertising company, creates no
content
• Alibaba - the most valuable retailer, has
no inventory
• Airbnb - the world’s largest
accommodation provider, owns no real
estate
• Gojek - perusahaan angkutan umum,
tanpa memiliki kendaraan
45
Evolution of Sciences
• Sebelum 1600: Empirical science
• Disebut sains kalau bentuknya kasat mata

• 1600-1950: Theoretical science


• Disebut sains kalau bisa dibuktikan secara matematis atau eksperimen

• 1950s-1990: Computational science


• Seluruh disiplin ilmu bergerak ke komputasi
• Lahirnya banyak model komputasi

• 1990-sekarang: Data science


• Kultur manusia menghasilkan data besar
• Kemampuan komputer untuk mengolah data besar
• Datangnya data mining sebagai arus utama sains

Jim Gray and Alex Szalay, The World Wide Telescope:


An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002
46
47
Data Mining Tasks and Roles
in General
Increasing potential
values to support End User
business decisions Decision
Making

Data Presentation Business Analyst


Visualization Techniques
Data Mining
Information Discovery and Modeling
Data Scientist
Data Exploration
Statistical Summary, Metadata, and Description

Data Preprocessing, Data Integration, Data Warehouses


DBA/
Data Sources DBE
Paper, Files, Web documents, Scientific experiments, Database Systems

48
Data Mining Tasks and Roles
in Product Development
• Mengolah data untuk dijadikan pola pengetahuan
(model/rule/formula/tree)
• Pola pengetahuan (model/rule/formula/tree)
dimasukkan ke dalam sistem (software)
• Sistem (software) menjadi cerdas dan bermanfaat
signifikan dalam meningkatkan value dan benefit
dari perusahaan/organisasi

• Dimana peran data scientist dalam perusahaan


pengembang teknologi (startup business atau
GAFAM)?
• Data Scientist? Software Engineer? Researcher? IT
Infrastructure Engineer?

49
It Computing Service
governance research operation
bagaimana
BUAT produk
produk
JUALAN it
CD
aplikasi
DATA dikembangkan
MUSIK GA & Infrastructure &
langganan
SCIENCE dijalankan
LAKU? Security
musik?
di era gafam &
Product startup? SOFTWARE
management ENGINEERING
50
3. Data SCIENCE Methods
and Technologies

51
Empat Dimensi Masalah Big Data

52
Volume → Data Preprocessing
1. Data cleaning
1. Fill in missing values
2. Smooth and remove
noisy, outliers and
inconsistence data
2. Data reduction
1. Numerosity reduction
2. Dimensionality reduction
1. Feature Selection (Filter, Wrapper, Embedded)
2. Feature Extraction (PCA, ICA, WT, etc)
3. Data transformation
• Normalization
• Discretization
4. Data integration
• Integration of multiple databases or files

53
Data Preparation Law (Data Mining Law 3)
Data preparation is more than half of every data
mining process

• Maxim of data mining: most of the effort in a data


mining project is spent in data acquisition and
preparation, and informal estimates vary from 50 to
80 percent
• The purpose of data preparation is:
1. To put the data into a form in which the data mining
question can be asked
2. To make it easier for the analytical techniques (such as
data mining algorithms) to answer it

54
Variety → Structured vs Unstructured Data
1. Text Mining:
• Mengolah data tidak terstruktur
(unstructured) dalam bentuk text, web,
social media, dsb
• Menggunakan metode text processing
untuk mengkonversi data tidak terstruktur menjadi terstruktur
• Kemudian diolah dengan data mining

2. Data Mining:
• Mengolah data terstruktur (structured) dalam bentuk tabel yang
memiliki atribut dan kelas
• Menggunakan metode data mining (estimasi, forecasting,
klasifikasi, klastering atau asosiasi)
• Yang dasar berpikirnya menggunakan konsep matematika statistika atau
heuristik ala machine learning
55
Metode Text Mining

Text Processing

56
Sentimen Analisis Review Film

57
Text Mining
Jejak Pornografi di
Indonesia
58
Text Mining: Klaster Pendukung AHY-AHOK-ANIES

59
Metode Data Mining

1. Estimasi

5. Asosiasi 2. Forecasting

Data Mining Roles


(Larose, 2005)

4. Klastering 3. Klasifikasi

60
Dataset (Himpunan Data)
Attribute/Feature/Dimension
Class/Label/Target

Record/
Object/
Sample/
Tuple/
Data

Nominal
Numerik
61
1. Estimasi Waktu Pengiriman Pizza Label

Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)

1 3 3 3 16
2 1 7 4 20
3 2 4 6 18
4 4 6 8 36
...
1000 2 4 2 12

Pembelajaran dengan
Metode Estimasi (Regresi Linier)

Waktu Tempuh (T) = 0.48P + 0.23TL + 0.5J


Pengetahuan
62
Contoh: Estimasi Performansi CPU
• Example: 209 different computer configurations

Cycle time Main memory Cache Channels Performance


(ns) (Kb) (Kb)
MYCT MMIN MMAX CACH CHMIN CHMAX PRP
1 125 256 6000 256 16 128 198
2 29 8000 32000 32 8 32 269

208 480 512 8000 32 0 0 67
209 480 1000 4000 0 0 0 45

• Linear regression function


PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
63
Output/Pola/Model/Knowledge
1. Formula/Function (Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Korelasi dan Asosiasi

4. Rule (Aturan)
• IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)

64
2. Forecasting Harga Saham
Label Time Series

Dataset harga saham


dalam bentuk time
series (rentet waktu)

Pembelajaran dengan
Metode Forecasting (Neural Network)

65
Pengetahuan berupa
Rumus Neural Network

Prediction Plot

66
Forecasting Cuaca

67
Exchange Rate Forecasting

68
Inflation Rate Forecasting

69
3. Klasifikasi Kelulusan Mahasiswa
Label

NIM Gender Nilai Asal IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat
UN Sekolah Waktu
10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya
10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak
10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak
10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya
...
...
11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

Pembelajaran dengan
Metode Klasifikasi (C4.5)

70
Pengetahuan Berupa Pohon Keputusan

71
Contoh: Rekomendasi Main Golf
• Input:

• Output (Rules):
If outlook = sunny and humidity = high then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity = normal then play = yes
If none of the above then play = yes
72
Contoh: Rekomendasi Main Golf
• Output (Tree):

73
Contoh: Rekomendasi Contact Lens
• Input:

74
Contoh: Rekomendasi Contact Lens
• Output/Model (Tree):

75
Klasifikasi Sentimen Analisis

76
Bankruptcy Prediction

77
4. Klastering Bunga Iris
Dataset Tanpa Label

Pembelajaran dengan
Metode Klastering (K-Means)

78
Pengetahuan (Model) Berupa Klaster

79
Klastering Jenis Pelanggan

80
Klastering Sentimen Warga

81
Poverty Rate Clustering

82
5. Aturan Asosiasi Pembelian Barang

Pembelajaran dengan
Metode Asosiasi (FP-Growth)

83
Pengetahuan Berupa Aturan Asosiasi

84
Contoh Aturan Asosiasi
• Algoritma association rule (aturan asosiasi) adalah
algoritma yang menemukan atribut yang “muncul
bersamaan”
• Contoh, pada hari kamis malam, 1000 pelanggan
telah melakukan belanja di supermaket ABC, dimana:
• 200 orang membeli Sabun Mandi
• dari 200 orang yang membeli sabun mandi, 50 orangnya
membeli Fanta
• Jadi, association rule menjadi, “Jika membeli sabun
mandi, maka membeli Fanta”, dengan nilai support =
200/1000 = 20% dan nilai confidence = 50/200 = 25%
• Algoritma association rule diantaranya adalah: A
priori algorithm, FP-Growth algorithm, GRI algorithm
85
Aturan Asosiasi di Amazon.com

86
Heating Oil Consumption
Korelasi antara jumlah konsumsi minyak
pemanas dengan faktor-faktor di bawah:

1. Insulation: Ketebalan insulasi rumah


2. Temperatur: Suhu udara sekitar rumah
3. Heating Oil: Jumlah konsumsi minyak
pertahun perrumah
4. Number of Occupant: Jumlah penghuni rumah
5. Average Age: Rata-rata umur penghuni rumah
6. Home Size: Ukuran rumah

87
88
89
Korelasi 4 Variable terhadap Konsumsi Minyak

Jumlah
Penghuni
Rumah
Rata-Rata 0.381
Umur 0.848
Konsumsi
Ketebalan 0.736 Minyak
Insulasi
Rumah

-0.774
Temperatur

90
Metode dan Algoritma Data Mining
1. Estimation (Estimasi):
Linear Regression (LR), Neural Network (NN), Deep Learning (DL),
Support Vector Machine (SVM), Generalized Linear Model (GLM), etc
2. Forecasting (Prediksi/Peramalan):
Linear Regression (LR), Neural Network (NN), Deep Learning (DL),
Support Vector Machine (SVM), Generalized Linear Model (GLM), etc
3. Classification (Klasifikasi):
Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptative
Credal C4.5), Naive Bayes (NB), K-Nearest Neighbor (kNN), Linear
Discriminant Analysis (LDA), Logistic Regression (LogR), etc
4. Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means
(FCM), etc
5. Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
91
Insight Law (Data Mining Law 6)
Data mining amplifies perception in the
business domain
• How does data mining produce insight? This law
approaches the heart of data mining – why it must be a
business process and not a technical one
• Business problems are solved by people, not by algorithms
• The data miner and the business expert “see” the
solution to a problem, that is the patterns in the domain
that allow the business objective to be achieved
• Thus data mining is, or assists as part of, a perceptual process
• Data mining algorithms reveal patterns that are not normally
visible to human perception
• Within the data mining process, the human problem
solver interprets the results of data mining algorithms
and integrates them into their business understanding
92
Teknologi Pendukung Data Science?

93
Data Science Landscape 2020

94
Penerapan Data Science di Organisasi Sering Gagal?
1. Lupakan tools dan teknologi, mulai dari meningkatkan
pemahaman dan kompetensi sumber daya manusia (SDM) di
bidang data mining, pahami berbagai roles dalam data mining
• Case study: BI, KPK, Kemlu, Kemsos, dsb
2. Mulai kumpulkan dan analisis berbagai dataset organisasi yang
layak dan memungkinkan diolah jadi pola pengetahuan yang
bermanfaat
• Sesuaikan dengan kebutuhan, visi, misi dan tujuan organisasi
3. Gunakan tools dan teknologi yang sederhana dan murah,
tunjukkan ke pimpinan bahwa makna dari data science adalah
pemanfaatan pola pengetahuan yang diolah dari data-data
organisasi untuk mendukung visi dan misi organisasi
• Data visualization? Excel or Tableau
• Data mining? KNIME atau Rapidminer
4. Peningkatan kompetensi SDM dan pengalaman pengolahan data
organisasi, akan membawa ke pengadaan teknologi yang akurat
sesuai kebutuhan
• Training, workshop dan kompetisi untuk SDM internal
• Sudah terlalu banyak kementrian dan BUMN yang pengadaan teknologi
data science, mencapai puluhan miliar dan akhirnya tidak digunakan

95
Software Engineering Law

Architecture wins over technology


(Morris-Ferguson Law – L48)

96
Magic Quadrant for Analytics and Business
Intelligence Platforms (Gartner 2020)

Source: Gartner, Analytics and Business Intelligence Platforms, 2020


97
Tableau

Founded by Christian Chabot, Chris Stolte and


Pat Hanrahan from Stanford University in 2003

98
Magic Quadrant for Data Science Platform
(Gartner, 2018)

99
KNIME
• KNIME (Konstanz Information Miner): platform data mining untuk analisis,
pelaporan, dan integrasi data, perangkat lunak bebas dan sumber terbuka
• Dikembangkan tahun 2004 oleh tim pengembang dari Universitas Konstanz,
dipimpin oleh Michael Berthold, untuk penelitian industri farmasi
• Mulai banyak digunakan orang sejak tahun 2006, dan setelah itu
berkembang pesat, tahun 2017 masuk ke Magic Quadrant for Data Science
Platform (Gartner Group)

100
Rapidminer
• Dikembangkan tahun 2001 oleh Ralf Klinkenberg,
Ingo Mierswa, dan Simon Fischer di Artificial
Intelligence Unit dari University of Dortmund
• Dikembangkan dengan Java, berlisensi open
source AGPL versi 3
• Meraih penghargaan sebagai software data mining
dan data analytics terbaik di berbagai lembaga
kajian, termasuk IDC, Gartner, KDnuggets, dsb

101
4. Data Science PROCESS

102
103
Private and Commercial Sector
• Marketing: product recommendation, market basket
analysis, product targeting, customer retention
• Finance: investment support, portfolio management,
price forecasting
• Banking and Insurance: credit and policy approval,
money laundry detection
• Security: fraud detection, access control, intrusion
detection, virus detection
• Manufacturing: process modeling, quality control,
resource allocation
• Web and Internet: smart search engines, web
marketing
• Software Engineering: effort estimation, fault
prediction
• Telecommunication: network monitoring, customer
churn prediction, user behavior analysis
104
Public and Government Sector
• Finance: exchange rate forecasting, sentiment analysis
• Taxation: adaptive monitoring, fraud detection
• Medicine and Healt Care: hypothesis discovery,
disease prediction and classification, medical
diagnosis
• Education: student allocation, resource forecasting
• Insurance: worker’s compensation analysis
• Security: bomb, iceberg detection
• Transportation: simulation and analysis, load
estimation
• Law: legal patent analysis, law and rule analysis
• Politic: election prediction
105
Studi Kasus Organisasi
Organisasi Masalah Tujuan Dataset
KPK • Sulitnya mengidentifikasi • Klasifikasi Profil Pelaku Korupsi • LHKPN
profil koruptor • Asosiasi Atribut Pelaku Korupsi • Penuntutan
• Tidak patuhnya WL dalam • Klasifikasi Kepatuhan LHKPN
LHKPN • Estimasi Penentuan Angka
Tuntutan
BSM Sulit mengidentifikasi faktor Klasifikasi kualitas profil nasabah Data
apa yang mempengaruhi pembiayaan
kualitas pembiayaan nasabah
LKPP Banyaknya konsultasi dan • Asosiasi pola pertanyaan instansi Data konsultasi
pertanyaan dari berbagai • Klasifikasi jenis pertanyaan
instansi yg harus dijawab
BPPK Sulitnya penanganan tweet Klasifikasi dan Klastering text mining Data twitter
dari masyarakat, apakah dari keluhan atau pertanyaan atau masyarakat
terkait pertanyaan, keluhan saran di media sosial
atau saran
Universitas Tingkat kelulusan tepat waktu Klasifikasi data kelulusan mahasiswa Data
Siliwangi belum maksimal (apakah mahasiswa
dikarenakan faktor jurusan
106
Studi Kasus Organisasi
Organisasi Masalah Tujuan Dataset
Kemenkeu Sulit menentukan faktor 1. Seberapa erat hubungan antar Data kinerja
(DJPB) refinement indicator komponen terhadap potensi organisasi
kinerja penyempurnaan
2. Klastering data kinerja organsiasi
Kemenkeu Sulit menentukan arah 1. Melihat hubungan beberapa data Data profil
(DJPB) opini hasil audit terhadap opini kementerian
kementerian 2. Klasifikasi profil kementerian
Kemenkeu Banyaknya pelaporan 1. Melihat hubungan beberapa Data
(DJPB) kanwil yang harus indikator laporan kanwil terhadap pelaporan
dianalisis dengan beragam akurasi kanwil
atribut 2. Klastering data pelaporan kanwil
3. Klasifikasi akurasi pelaporan kanwil
Kemenkeu Sulit menentukan prioritas 1. Klastering data profil kanwil Data
(DJPB) monitoring kanwil 2. Melihat hubungan beberapa transaksi dan
atribut terhadap klaster profil profil kanwil
kanwil

107
Studi Kasus Organisasi
Organisasi Masalah Tujuan Dataset
Kemenkeu Kebijakan masalah reward Klasifikasi profil pegawai yang Pegawai
(SDM) dan punishment untuk sering telat dan disiplin, sehingga
pegawai sering tidak efektif terdeteksi lebih dini
Kemenkeu Rasio perempuan yang • Klasifikasi dan klastering profile Pegawai
(SDM) menjabat eselon 4/3/2/1 pejabat eselon 4/3/2/1
hanya 15%, padahal masuk • Asosiasi jabatan dan atribut
PNS rasionya hampir imbang profile pegawai

Bank Peredaran uang palsu yang • Asosiasi jumlah peredaran uang Peredaran
Indonesia semakin banyak di Indonesia palsu dengan profil wilayah Uang Palsu
Indonesia
• Klastering wilayah peredaran
uang palsu
Adira Rasio kredit macet yang • Klasifikasi kualitas kreditur yang Kreditur
Finance semakin meninggi lancar dan macet
• Forecasting jumlah kredit macet
• Tingkat hubungan kredit macet
dengan berbagai atribut
108
Studi Kasus Organisasi
Organisasi Masalah Tujuan Dataset
Kemsos Kompleksnya parameter Klasifikasi profil rumah tangga miskin di Rumah tangga
penentuan tingkat kemiskinan kabupaten miskin di
rumah tangga di Indonesia kabupaten

Kemsos Sulitnya menentukan rumah Klastering profile rumah tangga miskin Rumah tangga
tangga yang diprioritaskan yang belum menerima bantuan miskin di
menerima bantuan sosial kabupaten
Kemsos Banyaknya penerima bantuan Klastering profil rumah tangga miskin Data Terpadu
sosial yang tidak tepat sasaran dari Data Terpadu Kesejahteraan Sosial Kesejahteraan
(DTKS) Sosial (DTKS)
PJB Periode maintenance yang tidak Estimasi berapa lama waktu yang Data
terkendali dibutuhkan sampai pada periode Maintenance
maintenance berikutnya
PJB Penentuan pegawai penerima Klasifikasi kelayakan pegawai untuk Data Pegawai
program sertifikasi mendapatkan program sertifikasi
(dapat/tidak)
PJB Karakteristik profil pegawai yang Klasifikasi kecenderungan karyawan Data Pegawai
biasanya pensiun dini tidak pensiun dini (pensiun dini/tidak/resign)
terdeteksi
109
Data Mining Laws
1. Business objectives are the origin of every data mining
solution
2. Business knowledge is central to every step of the data
mining process
3. Data preparation is more than half of every data mining
process
4. There is no free lunch for the data miner
5. There are always patterns
6. Data mining amplifies perception in the business domain
7. Prediction increases information locally by generalisation
8. The value of data mining results is not determined by the
accuracy or stability of predictive models
9. All patterns are subject to change

Tom Khabaza, Nine Laws of Data Mining, 2010


(http://khabaza.codimension.net/index_files/9laws.htm)
110
Data Mining Standard Process
• Dunia industri yang beragam bidangnya memerlukan proses data
mining yang standard untuk menyelesaikan masalah bisnis
• Proses tersebut harus dapat digunakan di lintas industry (cross-
industry) dan netral secara bisnis, tool dan aplikasi yang digunakan
• Pada tahun 1996, lahirlah salah satu standard proses di dunia data
mining yang kemudian disebut dengan: the Cross-Industry
Standard Process for Data Mining (CRISP–DM) (Chapman, 2000)

111
1. Business Understanding
• Problems:
• Sarah is a regional sales manager for a nationwide
supplier of fossil fuels for home heating
• Marketing performance is very poor and decreasing,
while marketing spending is increasing
• She feels a need to understand the types of behaviors and
other factors that may influence the demand for heating
oil in the domestic market
• She recognizes that there are many factors that influence
heating oil consumption, and believes that by
investigating the relationship between a number of those
factors, she will be able to better monitor and respond to
heating oil demand, and also help her to design marketing
strategy in the future
• Objective:
• To investigate the relationship between a number of
factors that influence heating oil consumption
112
2. Data Understanding
• In order to investigate her question, Sarah has enlisted our
help in creating a correlation matrix of six attributes
• Using employer’s data resources which are primarily drawn
from the company’s billing database, we create a data set
comprised of the following attributes:
1. Insulation: This is a density rating, ranging from one to ten,
indicating the thickness of each home’s insulation. A home
with a density rating of one is poorly insulated, while a home
with a density of ten has excellent insulation
2. Temperature: This is the average outdoor ambient
temperature at each home for the most recent year, measure
in degree Fahrenheit
3. Heating_Oil: This is the total number of units of heating oil
purchased by the owner of each home in the most recent year
4. Num_Occupants: This is the total number of occupants living
in each home
5. Avg_Age: This is the average age of those occupants
6. Home_Size: This is a rating, on a scale of one to eight, of the
home’s overall size. The higher the number, the larger the
home
113
3. Data Preparation
Data set: HeatingOil.csv

114
3. Data Preparation
• Data set appears to be very clean with:
• No missing values in any of the six attributes
• No inconsistent data apparent in our ranges (Min-Max)
or other descriptive statistics

115
4. Modeling

116
4. Modeling
• Hasil correlation matrix berupa tabel
• Semakin tinggi nilainya (semakin tebal warna
ungu), semakin tinggi tingkat korelasinya

117
5. Evaluation
Positive
Correlation

Negative
Correlation

118
5. Evaluation
• Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif)
pada konsumsi minyak pemanas (Heating Oil) adalah Average Age (Rata-
Rata Umur) penghuni rumah
• Atribut (faktor) kedua yang paling berpengaruh adalah Temperature
(hubungan negatif)
• Atribut (faktor) ketiga yang paling berpengaruh adalah Insulation
(hubungan positif)
• Atribut Home Size, pengaruhnya sangat kecil, sedangkan Num_Occupant
boleh dikatakan tidak ada pengaruh ke konsumsi minyak pemanas

119
5. Evaluation 1

• Grafik menunjukkan bahwa konsumsi minyak memiliki korelasi


positif dengan rata-rata usia
• Meskipun ada beberapa anomali juga terjadi:
1. Ada beberapa orang yang rata-rata usia tinggi, tapi kebutuhan
minyaknya rendah (warna biru muda di kolom kiri bagian atas)
2. Ada beberapa orang yang rata-rata usia rendah, tapi kebutuhan
minyaknya tinggi (warna merah120di kolom kanan bagian bawah)
5. Evaluation 2 dan 3

2 dan 3

1. Grafik menunjukkan hubungan antara temperature dan insulation, dengan warna adalah konsumsi minyak
(semakin merah kebutuhan minyak semakin tinggi)
2. Secara umum dapat dikatakan bahwa hubungan temperatur dengan insulation dan konsumsi minyak adalah
negatif. Jadi temperatur semakin rendah, kebutuhan minyak semakin tinggi (kolom kiri bagian atas)
ditunjukkan dengan banyak yang berwarna kuning dan merah
3. Insulation juga berhubungan negatif dengan temperatur, sehingga makin rendah temperatur, semakin
butuh insulation
4. Beberapa anomali terdapat pada Insulation yang rendah nilainya, ada beberapa yang masih memerlukan
minyak yang tinggi 121
5. Evaluation

1. Grafik tiga dimensi menunjukkan hubungan antara temperatur, rata-rata


usia dan insulation
2. Warna menunjukkan kebutuhan minyak, semakin memerah maka
semakin tinggi
3. Temperatur semakin tinggi semakin tidak butuh minyak (warna biru tua
4. Rata-rata usia dan insulation semakin tinggi semakin butuh minyak
122
6. Deployment
Dropping the Num_Occupants attribute
• While the number of people living in a home might
logically seem like a variable that would influence
energy usage, in our model it did not correlate in any
significant way with anything else
• Sometimes there are attributes that don’t turn out to
be very interesting

123
6. Deployment
Adding additional attributes to the data set
• It turned out that the number of occupants in the
home didn’t correlate much with other attributes,
but that doesn’t mean that other attributes would
be equally uninteresting
• For example, what if Sarah had access to the
number of furnaces and/or boilers in each home?
• Home_size was slightly correlated with Heating_Oil
usage, so perhaps the number of instruments that
consume heating oil in each home would tell an
interesting story, or at least add to her insight

124
6. Deployment
Investigating the role of home insulation
• The Insulation rating attribute was fairly strongly
correlated with a number of other attributes
• There may be some opportunity there to partner
with a company that specializes in adding insulation
to existing homes

125
6. Deployment
Focusing the marketing efforts to the city with low
temperature and high average age of citizen
• The temperature attribute was fairly strongly negative
correlated with a heating oil consumption
• The average age attribute was strongest positive
correlated with a heating oil consumption

126
6. Deployment
Adding greater granularity in the data set

• This data set has yielded some interesting results, but it’s
pretty general
• We have used average yearly temperatures and total
annual number of heating oil units in this model
• But we also know that temperatures fluctuate
throughout the year in most areas of the world, and thus
monthly, or even weekly measures would not only be
likely to show more detailed results of demand and usage
over time, but the correlations between attributes would
probably be more interesting
• From our model, Sarah now knows how certain attributes
interact with one another, but in the day-to-day business
of doing her job, she’ll probably want to know about
usage over time periods shorter than one year
127
5. Data Science Research

128
Perbedaan Key Performance Indikator (KPI):
Peneliti vs Industri

Peneliti Industri

129
Apa Yang Dikejar di Penelitian?
Research is a considered activity, which
aims to make an original contribution to
knowledge
(contribution to the body of knowledge, in the research field of interest)

(Dawson, 2009)

130
Bentuk Kontribusi ke Pengetahuan

Kegiatan penyelidikan dan investigasi


terhadap suatu masalah yang dilakukan
secara berulang-ulang dan sistematis,
dengan tujuan untuk menemukan atau
merevisi teori, metode, fakta, dan
aplikasi

(Berndtsson et al., 2008)

131
Perbedaan Kontribusi Penelitian Data Science:
Peneliti Bidang Computing vs Non Computing

Computing Non Computing


Researcher Researcher

132
Business

Knowledge

Methods

Technology
133
Masalah Penelitian Data Sience
1. Tremendous amount of data
• Algorithms must be highly scalable to handle such as tera-bytes
of data
2. High-dimensionality of data
• Micro-array may have tens of thousands of dimensions
3. High complexity of data
• Data streams and sensor data
• Time-series data, temporal data, sequence data
• Structure data, graphs, social networks and multi-linked data
• Heterogeneous databases and legacy databases
• Spatial, spatiotemporal, multimedia, text and web data
• Software programs, scientific simulations

4. New and sophisticated applications


134
Kontribusi ke Pengetahuan

135
Contoh Kontribusi ke Pengetahuan Penelitian
Bidang Computing
Decision Tree CART (Breiman ,1984)

Credal C4.5 (Mantas, 2014)

Credal DT (Abellan, 2003)

C4.5 (Quinlan, 1993)

ID3 (Quinlan, 1986)


136
Research
Gaps

Masalah
Penelitian

Solusi Masalah Penelitian


(Contribution to Knoweldge)

137
Algorithm
Improvement

Data
Preprocessing

138
Contoh Kontribusi ke Pengetahuan Penelitian
Bidang Manajemen
Marketing Mix
7P (Booms and Bitner, 1981)

8P (Gold Smith, 1999)

4P (Jerome McCarthy, 1964)

12 Elements (Neil Borden, 1953)


139
Marketing Mix Evolution (Festa et al., 2015)
Research
Gaps

Masalah
Penelitian

Solusi Masalah Penelitian


(Contribution to Knoweldge)

140
Perbaikan 4P Menjadi 4E

Marketing Mix Baru


Khusus untuk Industri Turisme

Marketing Mix Khusus untuk


Private Labels Brand Equity

Standarisasi Marketing Mix untuk


Generalisasi Lebih Luas

141
Terima
kasih
Romi Satria Wahono
[email protected]
http://romisatriawahono.net
http://youtube.com/RomiSatriaWahono
08118228331

142

You might also like