0% found this document useful (0 votes)
68 views79 pages

Data Scientists Training - Main Material

The document outlines the training contents for a 4-day data scientists training taking place from 24-28 October 2022. The training will cover the key aspects of data science including introduction to data science, data science framework, business understanding, data understanding, data preparation, modeling, evaluation, and deployment. It provides detailed explanations of various data science processes and frameworks such as CRISP-DM and includes examples of typical tasks, outputs, and terminology used at each stage of a data science project.

Uploaded by

Joshua Sianipar
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
68 views79 pages

Data Scientists Training - Main Material

The document outlines the training contents for a 4-day data scientists training taking place from 24-28 October 2022. The training will cover the key aspects of data science including introduction to data science, data science framework, business understanding, data understanding, data preparation, modeling, evaluation, and deployment. It provides detailed explanations of various data science processes and frameworks such as CRISP-DM and includes examples of typical tasks, outputs, and terminology used at each stage of a data science project.

Uploaded by

Joshua Sianipar
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 79

Data Scientists Training

24-28 October 2022

Canggih Puspo Wibowo


Training Contents
Training Contents
• Introduction to Data Science

• Data Science Framework

• Business Understanding

• Data Understanding

• Data Preparation

• Modeling

• Evaluation

• Deployment

Canggih Puspo Wibowo 3


Introduction to Data Science
What is Data Science?

https://www.stoodnt.com/blog/top-universities-for-ms-in-data-science-in-usa/

Canggih Puspo Wibowo 5


Why We Need Data Science?

PAST PRESENT
IR 4.0

Science FOR Data Data FOR Science

Canggih Puspo Wibowo 6


How to do Data Science?
Pattern
Data Mining
Machine Learning Classification
Frequentist
Forecasting
Mathematics
Data Science? Programming
Computer
Analytics
Predictive Modeling
Bayesian Statistics
Social Networks Big Data
Probability These are ‘only’ tools!!
Meaningless without a capable user

Canggih Puspo Wibowo 7


Data Science in Computing Curricula

Information Information
Cybersecurity
Technology System

Software
Engineering

Computer Computer
Data Science
Engineering Science

Source: Computing Curricula 2020

Canggih Puspo Wibowo 8


Data Scientist

A data scientist

A person who thinks like a data scientist

Canggih Puspo Wibowo 9


Data Science Team

Position Task Tools

SQL, NoSQL, Apache Airflow, Apache


Data Engineer Collecting and Storing
Kafka, Hadoop, etc

Excel, R, Python, SQL, PowerBI,


Data Analyst Exploring and Visualizing
Tableau, Google Data Studio, etc

R, Python, Orange, Weka, RapidMiner,


Data Scientist Predicting and Forecasting
Knime, etc

C, C++, Python, Docker, AutoML,


Machine Learning Engineer Implementing and Deploying
GCP, AWS, Azure, etc

Canggih Puspo Wibowo 10


Data Science Project
Framework
Data Science Project Framework
“Standard for doing data science project”

KDD SEMMA
(Knowledge Data Discovery) (Sample, Explore, Modify, Model, and Assess)

CRISP-DM ASUM-DM
(Cross-industry Standard Process for Data Mining) (Analytics Solutions Unified Method for Data Mining)

Canggih Puspo Wibowo 12


KDD Process (Fayyad, 1996)

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3), 37-37.

Canggih Puspo Wibowo 13


CRISP-DM Process (European Union, 1997)

Chapman, P., et al (1999, March). The CRISP-DM user guide. In 4th CRISP-DM SIG Workshop in Brussels

Canggih Puspo Wibowo 14


SEMMA Process (SAS, 2005)

Sharda, R., Delen, D., Turban, E. (2018). Big data Intelligence, Analytics, and Data Science: A Managerial Perspective. 04. Pearson Education. New Jersey.

Canggih Puspo Wibowo 15


ASUM-DM Process (IBM, 2015)

IBM Analytics (2016). Analytics Solutions Unified Method: Implementations with Agile principles.

Canggih Puspo Wibowo 16


Framework Comparison
KDD CRISP-DM SEMMA ASUM-DM

Pre KDD Business Understanding -

Selection Sample Analyze


Data Understanding
Preprocessing Explore

Transformation Data Preparation Modify Design

Data Mining Modeling Model


Configure and Build
Interpretation/Evaluation Evaluation Assessment

Post KDD Deployment - Deploy

- - - Operate and Optimize

Canggih Puspo Wibowo 17


CRISP-DM
CRISP-DM Process

Canggih Puspo Wibowo 19


1. Business Understanding
1. Business Understanding

Canggih Puspo Wibowo 21


1.1. Determine Business Objectives
• Memahami apa yang sebenarnya klien ingin capai dalam perspektif bisnis.

• Output:

Canggih Puspo Wibowo 22


1.1.1. Background
• Informasi yang diketahui tentang situasi bisnis dari klien. Berisi informasi
bisnis, masalah, dan solusi saat ini.

• Contoh:

• Sebuah perusahaan X bergerak di bidang …… dipimpin oleh…..dst

• Masalah-masalah yang dihadapi yaitu: penjualan produk mengalami


penurunan, banyak pelanggan yang tidak kembali, ……dst

• Solusi yang sudah diterapkan: menambah promosi produk, tapi ini


membutuhkan biaya yang tidak sedikit, dan tidak signifikan hasilnya…..dst

Canggih Puspo Wibowo 23


1.1.2. Business Objectives
• Tentukan tujuan utama yang ingin dicapai klien, dalam perspektif bisnis.

• Contoh:

• Membuat pelanggan tidak beralih ke produk perusahaan lain

• Membuat kebijakan yang sesuai keinginan rakyat

• Menurunkan jumlah kasus korupsi di kalangan pejabat

• Mengetahui karakteristik masyarakat pengguna media sosial

• …..dll

Canggih Puspo Wibowo 24


1.1.3. Business Success Criteria
• Kriteria yang menjadikan business objective dikatakan berhasil atau tidak.
Spesifik dan bisa diukur.

• Contoh:

• Customer retention rate > 90%

• Jumlah protes kebijakan di media sosial berkurang 30%

• Jumlah kasus korupsi berkurang 50%

• Bidang HR dapat memahami karakteristik masyarakat.

• Dll

Canggih Puspo Wibowo 25


1.2. Assess Situation
• Menjelaskan tentang sumber daya, batasan, asumsi, dan faktor-faktor lain
yang bisa berpengaruh.

• Output:

Canggih Puspo Wibowo 26


1.2.1. Inventory of Resources
• Daftar sumber daya yang tersedia untuk projek

• Contoh:

• Daftar hardware yang tersedia (komputer, server, dll)

• Sumber data dan pengetahuan (data apa saja yang dimiliki)

• Sumber daya manusia (ekspertis yang tersedia, teknisi, dll)

• Sumber dana

• dll

Canggih Puspo Wibowo 27


1.2.2. Requirement, Assumptions, and Constraints
• Daftar kebutuhan, daftar asumsi, daftar batasan

• Contoh:

• Kebutuhan: jadwal pelaksanaan, data yang dibutuhkan, sumber daya, dll

• Asumsi: kualitas data (ketersediaan, akurasi, dll), faktor eksternal, dll

• Batasan: dana, waktu, sumber daya, data, dll

Canggih Puspo Wibowo 28


1.2.3. Risks and Contingencies
• Daftar resiko yang mungkin akan ada dan rencana mengatasinya

• Contoh:

• Resiko: data yang didapat sangat “kotor”, data di komputer hilang, dll

• Rencana mengatasi: tambah proses “cleansing”, menyimpan di cloud, dll

Canggih Puspo Wibowo 29


1.2.4. Terminology
• Penjelasan tentang istilah-istilah bisnis (spesifik di klien) dan data science
yang berkaitan dengan projek

• Contoh:

• Bisnis (spesifik): churn rate adalah…., R-naught adalah….., dll

• Data Science: MSE adalah…., regresi adalah…., recall adalah…..,dll

Canggih Puspo Wibowo 30


1.2.5. Costs and Benefits
• Perkiraan biaya-biaya yang dibutuhkan serta manfaat yang terkait.

• Contoh:

• Pengambilan data 100 juta rupiah

• Semakin banyak dana untuk pengambilan data -> data semakin banyak
-> prediksi lebih akurat

• Biaya sewa server 2 juta per bulan

• Semakin mahal server (kapasitas bagus) -> proses modeling menjadi


lebih cepat

• Dll

Canggih Puspo Wibowo 31


1.3. Determine Data Science Goals
• Penjelasan tujuan projek data science dalam perspektif teknis

Canggih Puspo Wibowo 32


1.3.1. Data Science Goals
• Tujuan yang bersifat teknis dan spesifik menjelaskan masalah yang ingin
dipecahkan.

• Tipe masalah: deskripsi, eksplorasi, segmentasi, klasifikasi, regresi, atau


asosiasi

• Contoh:

• Klasifikasi produk yang akan dipilih pelanggan

• Prediksi berapa banyak pelanggan yang akan membeli lagi

• Dll

Canggih Puspo Wibowo 33


1.3.1. Data Science Goals (2)
Deskripsi Klasifikasi
Ringkasan karakteristik suatu data Memprediksi label/kelas suatu data

Eksplorasi Regresi
Mengungkap insight dalam suatu data Memprediksi nilai kontinyu dari data

Asosiasi
Segmentasi
Mengungkap keterkaitan antar data,
Pemisahan data ke dalam grup-grup
grup, atau variabel

Canggih Puspo Wibowo 34


1.3.2. Data Science Success Criteria
• Kriteria keluaran yang dianggap sukses dalam istilah teknis

• Contoh:

• Akurasi model prediksi > 95%

• Indeks Silhouette > 0.8

• <subjective assessment>

• Dll

Canggih Puspo Wibowo 35


1.4. Produce Project Plan
• Penjelasan tentang rencana dalam melaksanakan projek

• Output:

Canggih Puspo Wibowo 36


1.4.1. Project Plan
• Daftar langkah-langkah dalam projek serta kebutuhan sumber daya untuk
setiap langkah.

• Bisa dibuat menggunakan gantt chart.

Canggih Puspo Wibowo 37


1.4.2. Initial Assessment of Tools and Techniques
• Memilih alat dan metode yang potensial digunakan pada setiap fase dalam proyek.

• Bisa disertakan plus minus masing-masing.

• Contoh:

• Manajemen proyek: Ms Project, Ganttproject, dll

• Eksplorasi: Tableau, dll

• Model: Python, R, Knime, dll

• Report: Latex, Ms Word, dll

• Teknik prediksi: XGBoost, CNN, dll

• Dll
Canggih Puspo Wibowo 38
2. Data Understanding
2. Data Understanding

Canggih Puspo Wibowo 40


2.1. Collect Initial Data
• Mencoba mengambil data dari sumber data yang sudah dituliskan
sebelumnya.

Canggih Puspo Wibowo 41


2.1.1. Initial Data Collection Report
• Menjelaskan data-data yang digunakan dalam proyek. Termasuk bagaimana
cara mendapatkan/mengaksesnya secara teknis.

• Contoh:

• Data pelanggan dapat diakses dari tabel pelanggan yang ada di database X
dengan akses ……..

• Data komentar warganet diakses menggunakan API Twitter dengan metode


pengambilan ……..

• Dll

Canggih Puspo Wibowo 42


2.2. Describe Data
• Memeriksa gambaran “kasar” dari suatu data

• Jika diperlukan, bisa ubah asumsi setelah memeriksa data ini

Canggih Puspo Wibowo 43


2.2.1. Data Description Report
• Penjelasan umum tentang data meliputi format data, kuantitas, tipe kolom,
dan sebagainya.

• Bisa disajikan dalam tabel

• Contoh:

• Ada 5 tabel, tiap tabel ada 1000 baris dan 16 kolom

• Kolom 1 adalah ….., merepresentasikan…….

• Statistika dasar untuk tiap tabel

• Dll Hands-on with Python

Canggih Puspo Wibowo 44


2.3. Explore Data
• Mengeksplorasi data, meliputi: visualisasi dasar, verifikasi hipotesis, dll

• Proses ini sering disebut sebagai Exploratory Data Analysis (EDA)

• Mungkin terkait langsung dengan tujuan teknis data science tertentu.

Slide: Data Visualization


Canggih Puspo Wibowo 45
2.3.1. Data Exploration Report
• Berupa temuan awal atau hipotesis awal serta dampaknya dalam proyek
keseluruhan.

• Hasil verifikasi hipotesis awal juga dapat disampaikan.

• Contoh:

• Temuan tentang adanya tren dari penjualan produk…..

• Temuan adanya anomali pada data penderita C-19…..

• Hipotesis awal tentang…..

• dll Hands-on with Python

Canggih Puspo Wibowo 46


2.4. Verify Data Quality
• Memeriksa kualitas data: apakah datanya lengkap (untuk semua kasus)?,
apakah ada data eror? Seberapa banyak erornya? Apakah ada data kosong?
Dll

Canggih Puspo Wibowo 47


2.4.1. Data Quality Report
• Daftar hasil pengamatan kualitas data

• Jika ada masalah terkait kualitas, berikan juga solusi yang mungkin

• Contoh:

• Penulisan jenis kelamin tidak sama. Solusi: proses standardisasi

• Ada 50 data kosong pada kolom. Solusi: imputasi

• Kolom profesi semua berisi mahasiswa. Solusi: hapus kolom/tambah data

• Dll

Canggih Puspo Wibowo 48


3. Data Preparation
3. Data Preparation

Canggih Puspo Wibowo 50


3.1. Select Data
• Memilih subset data, dapat berupa kolom atau tabel yang sesuai dengan
tujuan data science

• Proses yang digunakan: feature selection dan sampling

Canggih Puspo Wibowo 51


3.1.1. Rationale for Inclusion/Exclusion
• Daftar alasan mengapa memilih atau membuang data yang bersangkutan

• Dapat memanfaatkan uji statistika

• Contoh:

• Kolom pendapatan dipilih karena berkorelasi tinggi dengan pengeluaran


berdasarkan uji korelasi

• Membagi data menjadi data training dan testing menggunakan random


sampling

• Dll
Hands-on with Python

Canggih Puspo Wibowo 52


3.2. Clean Data
• Meningkatkan kualitas data hingga mencapai tingkat yang dibutuhkan untuk
melakukan analisis tertentu

Canggih Puspo Wibowo 53


3.2.1. Data Cleaning Report
• Menjelaskan keputusan serta langkah-langkah dalam mengatasi masalah
kualitas data yang ada di data quality report (2.4.1)

• Contoh:

• Proses mengatasi data kosong

• Mengatasi typo

• Dll

Hands-on with Python

Canggih Puspo Wibowo 54


3.3. Construct Data
• Membangun data dengan menambah kolom baru atau menambah baris baru

• Menambah kolom (derived attributes) biasa disebut feature engineering

• Menambah baris (generated records) biasa disebut oversampling

Hands-on with Python


Slide: Feat. Eng. and Gen. Records
Canggih Puspo Wibowo 55
3.4. Integrate Data
• Menggabungkan data dari berbagai tabel atau dari sumber lain

Hands-on with Python

Canggih Puspo Wibowo 56


3.5. Format Data
• Pengubahan format data dengan tidak mengubah makna namun bisa
berguna untuk pembuatan model

• Contoh: mengubah urutan kolom, urutan baris, dan sebagainya

Canggih Puspo Wibowo 57


3.6. Data Set
• Output akhir dari proses data understanding

• Data set = data siap untuk dibuat model

• Data set description = informasi metadata tentang dataset

Canggih Puspo Wibowo 58


4. Modeling
4. Modeling

Canggih Puspo Wibowo 60


4.1. Select Modeling Technique
• Memilih teknik pemodelan yang akan digunakan

Hands-on with Python

Canggih Puspo Wibowo 61


4.1.1. Modeling Technique

Canggih Puspo Wibowo 62


4.1.2. Modeling Assumptions
• Banyak model yang mengharuskan suatu asumsi terhadap data.

• Contoh:

• Linear regression membutuhkan asumsi linearitas, dll

• Random forest tidak membutuhkan asumsi

• SVM membutuhkan asumsi bahwa datanya independen dan tersebar


merata

• dll

Canggih Puspo Wibowo 63


4.2. Generate Test Design
• Merencanakan skema pengujian model

• Contoh:

• Membagi dataset ke dalam training, validation, dan testing dengan


proporsi……Kemudian melakukan pembuatan model di training,
diaplikasikan di validation, dan diuji di testing.

• Dsb

Canggih Puspo Wibowo 64


4.3. Build Model
• Menjalankan proses pembuatan model

• Output:

• Parameter awal yang digunakan di model

• Model itu sendiri

• Deskripsi model. Bisa berisi parameter/hyperparameter yang digunakan,


dan informasi lain terkait model akhir

Canggih Puspo Wibowo 65


4.4. Assess Model
• Mengevaluasi hasil model dikaitkan dengan kriteria sukses dari tujuan data
science

Canggih Puspo Wibowo 66


4.4.1. Model Assessment
• Regression

• MAE (Mean Absolute Error), MSE (Mean Square Error), RMSE (Root Mean
Square Error)

• Classification

• Accuracy, Precision, Recall, F1-Score, Sensitivity, Specivicity, TPR, FPR,


ROC AUC, dll

• Clastering

• WCSS, Silhouette Index, Rand Index, Calinski-Harabasz Index, Davies-


Bouldin Index, dll

Canggih Puspo Wibowo 67


4.4.2. Revised Parameter Settings
• Berdasarkan hasil assessment, maka bisa dilakukan proses pengubahan
parameter yang ada di dalam model untuk mendapat model terbaik.

• Alur proses bisa berulang dari membuat model hingga assessment

Canggih Puspo Wibowo 68


5. Evaluation
5. Evaluation
• Mengevaluasi keseluruhan projek, dikaitkan dengan business objective

• Result projek = Model + Findings (temuan)

Canggih Puspo Wibowo 70


5.1. Evaluate Results
• Apakah hasil dari data science sudah sesuai dengan business objective?

• Tuliskan rekomendasi untuk projek selanjutnya

• Pilih model yang hasilnya sesuai dengan business criteria

Canggih Puspo Wibowo 71


5.2. Review Process
• Meninjau ulang proses data science di dalam projek

• Dapat dikatakan sebagai proses Quality Assurance

Canggih Puspo Wibowo 72


5.3. Determine Next Steps
• Membuat daftar aksi selanjutnya beserta alasannya

• Menentukan langkah mana yang diambil beserta alasannya

Canggih Puspo Wibowo 73


6. Deployment
6. Deployment

Canggih Puspo Wibowo 75


6.1. Plan Deployment
• Membuat perencanaan pengaplikasian hasil data science ke dalam proses
bisnis

Canggih Puspo Wibowo 76


6.2. Plan Monitoring and Maintenance
• Membuat perencanaan monitoring dan perawatan hasil data science yang
sudah di-deploy ke sistem bisnis

Canggih Puspo Wibowo 77


6.3. Produce Final Report
• Membuat laporan dan presentasi akhir

Canggih Puspo Wibowo 78


6.4. Review Project
• Membuat review keseluruhan projek, bagian mana yang bisa ditingkatkan,
beserta rekomendasi pengembangan selanjutnya

Canggih Puspo Wibowo 79

You might also like