Modul 3
Modul 3
Tujuan utama dari modul pelatihan ini adalah untuk membahas metodologi data science secara umum
untuk mengembangkan suatu aplikasi AI dengan menjelaskan langkah-langkah utama yang diperlukan
untuk menyelesaikan suatu masalah organisasi/ bisnis dengan melakukan tugas-tugas yang umumnya
terkait dengan data science.
Capaian Pembelajaran
Data
Menjadi
Sistem Intelijen
(berbasis Pengetahuan)
Sistem AI berbasis (Big) Data dikembangkan dalam 2 tahap
1. Pengembangan
(Pelatihan)
2. Penggunaan
Tujuan Tugas/ Task yang Biasa Dikembangkan
Descriptive:
01
Menjelaskan keadaan bisnis saat ini melalui data historis.
Diagnostic:
02 Menjelaskan mengapa suatu masalah terjadi dengan melihat data
historis.
Predictive:
03 Memproyeksikan atau memprediksi hasil masa depan
berdasarkan data historis.
Prescriptive:
04 Menggunakan hasil analitik prediktif dan pengetahuan lain
dengan menyarankan upaya terbaik di masa depan.
Jenis Task yang Dikembangkan
Regression /
Classification Clustering Association
Estimation
https://www.slideshare.net/PMI-Montreal/symposium-2019-gestion-de-projet-en-intelligence-
artificielle
Mayoritas Proyek Pengembangan AI/DS Gagal
Perlu Metodologi Pengembangan
Metodologi Pengembangan
Metoda iterative yang dipakai untuk menyelesaikan masalah dengan mengguna-kan data dan data
science melalui urutan langkah yang ditentukan
Berbagai Metodologi Data Science
Jenis Metodologi
● Metodologi kegiatanTeknis
● Metodologi kegiatan bisnis (dan teknis)
Metodologi Teknis: Kegiatan DS/AI dianggap Kegiatan
Teknikal
● Knowledge Discovery and Data Mining
https://www.kdnuggets.com/gpspubs/ai
mag-kdd-overview-1996-Fayyad.pdf
Metodologi Teknis: Kegiatan DS/AI dianggap Kegiatan
Teknikal
● SEMMA dari SAS Institute
https://documentation.sas.com/?docsetId=emref&docs
etTarget=n061bzurmej4j3n1jnj8bbjjm1a2.htm&docsetV
ersion=14.3&locale=en
Metodologi Lengkap: Kegiatan DS/AI dianggap Kegiatan
Bisnis: Masalah Bisnis menjadi Masalah DS/AI
● CRISP-DM
https://documentation.sas.com/?docsetId=emref&docs
etTarget=n061bzurmej4j3n1jnj8bbjjm1a2.htm&docsetV
ersion=14.3&locale=en
Metodologi Lengkap: Kegiatan DS/AI dianggap Kegiatan
Bisnis: Masalah Bisnis menjadi Masalah DS/AI
● IBM Data Science Methodology
https://www.slideshare.net/
JohnBRollinsPhD/foundational-methodology-for-data-science
Metodologi Lengkap: Kegiatan DS/AI dianggap Kegiatan
Bisnis: Masalah Bisnis menjadi Masalah DS/AI
● Microsoft’s Team Data Science Process
https://docs.microsoft.com/en-us/azure
/machine-learning/team-data-science-process/overview
Metodologi Lengkap: Kegiatan DS/AI dianggap Kegiatan
Bisnis: Masalah Bisnis menjadi Masalah DS/AI
● Domino DataLab Methodology
https://www.dominodatalab.com/
Standard Kompetensi Kerja Nasional:
Bagaimana di Indonesia? KepMen Ketenagakerjaan No 299 thn 2020
Tim Pengembang: Kegiatan Bersama
01 Data Scientist
Mengembangkan model terbaik dari data untuk menjawab permasalahan bisnis
02 Data Engineer
Menyiapkan (big) data untuk diolah/ dimodelkan
03 Data Analyst
Menganalisis/ mencari insight dari data (dan menampilkannya dalam dashboard)
04
Project/ Product Manager
Mengelola projek/ produk berbasis data.
05 Domain Expert
Memberi arahan tentang domain permasalahan
IT People
06 Menyiapkan infrastruktur IT (terutama deployment)
Langkah Pengembangan
1. Business Understanding: Menentukan Masalah Bisnis
Kasus: Kegagalan Kredit
Problem:
Bagaimana menurunkan NPL suatu bank
Pertanyaan:
Bagaimana memperbaiki perhitungan Credit score
Measurable outcomes:
% Penurunan kredit gagal bayar
westonlegal.com
1. Business Understanding: Menentukan Tugas Analytics
Apa Tugas Analitiks yang perlu diselesaikan
untuk menjawab permasalahan bisnis?
Problem:
Bagaimana menurunkan NPL suatu bank
Pertanyaan:
Bagaimana memperbaiki perhitungan Credit score
Tugas Analitik:
Klasifikasi
Performance Metrics:
F1-Score
westonlegal.com
1. Business Understanding: Menentukan Kebutuhan Data
Data apa yang diperlukan?
Dari mana bisa diperoleh?
02
Menelaah data Karakteristik atribut/ fitur
Menganalisa data secara eksploratif Keterkaitan antar data
03
Memvalidasi Data
Kualitas Data
Menilai kesesuaian kualitas data de-
ngan masalah yang akan dipecahkan
2. Data Understanding :
Mengapa Perlu Mengenali/ mendalami data yang dimiliki
• The United States armed forces faced a dilemma during the
war, because returning bomber planes were riddled with bullet
holes and they needed better ways to protect them
• “Where should they put it?”
• When they plotted out the damage
these planes were incurring, it was
spread out, but largely concentrated
around the tail, body and wings.
• Should they upgrade these sections?
2. Data Understanding : Mengumpulkan Data
01
Memilih dan memilah data Rekord terpakai
Memilih data yang akan dipergunakan Atribut terpakai
02
Membersihan Data Data lengkap
Meminimalkan noise (tidak lengkap, salah) Data yang diperbaiki
Data Pecilan
03
Mengkonstruksi data Fitur tambahan (Feature Engineering)
Menambahkan fitur dan transformasi data Transformasi data (standardisasi, transformasi)
04
Integrasi Data
Menggabungkan data Gabungan data
4. Modeling :
Mengembangkan Model (Pengetahuan)
01
Membangun Skenario Pemodelan
Membuat strategi pencarian model terbaik
Pemilihan Algoritma Machine Learning (ML)
Pembagian Data
Penentuan Langkah Eksperimen
02
Membangun model
Mengembangkan model dengan Teknik ML
Eksekusi Algoritma
Pengaturan Parameter
Pengukuran Performance Metrics
4. Modeling : Membangun Skenario Pemodelan
Data
Latih
Split
Data
Data
Uji
4. Modeling : Membangun Skenario Pemodelan
01
Mengevaluasi Model Performansi Capaian vs Target
Memilih Model terbaik
Mengukur performansi model
02
Mengevaluasi Proses Review Proses untuk mencari
batasan atau kekurangan model
Menilai apakah proses sudah maksimal
Summary