0% menganggap dokumen ini bermanfaat (1 suara)
419 tayangan

Modul 3

Modul pelatihan ini membahas metodologi data science untuk mengembangkan aplikasi AI. Tujuannya adalah menjelaskan langkah-langkah utama dalam metodologi data science, mulai dari memahami masalah bisnis, menentukan tugas analitik, kebutuhan data, hingga merencanakan pelaksanaan proyek. Modul ini juga membahas berbagai metodologi data science serta alasan diperlukannya suatu metodologi untuk mengembangkan

Diunggah oleh

Akhi Danu
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (1 suara)
419 tayangan

Modul 3

Modul pelatihan ini membahas metodologi data science untuk mengembangkan aplikasi AI. Tujuannya adalah menjelaskan langkah-langkah utama dalam metodologi data science, mulai dari memahami masalah bisnis, menentukan tugas analitik, kebutuhan data, hingga merencanakan pelaksanaan proyek. Modul ini juga membahas berbagai metodologi data science serta alasan diperlukannya suatu metodologi untuk mengembangkan

Diunggah oleh

Akhi Danu
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 56

thematic Academy

Data Scientist: Artificial Intelligence untuk Dosen dan Instruktur


Pertemuan #3 : Metodologi Data Science
Deskripsi Pelatihan

Tujuan utama dari modul pelatihan ini adalah untuk membahas metodologi data science secara umum
untuk mengembangkan suatu aplikasi AI dengan menjelaskan langkah-langkah utama yang diperlukan
untuk menyelesaikan suatu masalah organisasi/ bisnis dengan melakukan tugas-tugas yang umumnya
terkait dengan data science.
Capaian Pembelajaran

Pada topik ini, kita akan mempelajari:


● Metodologi Data Science
● Langkah-langkah utama dalam metodologi data science
Agenda

● Mengapa Metodologi diperlukan


○ Mengapa Mayoritas Projek AI Gagal
● Berbagai Metodologi Data Science
○ Tak semua metodologi sama lengkap
● Langkah Pengembangan
○ Dari Masalah Bisnis menjadi Aplikasi AI
Mengapa Metodologi diperlukan
Sistem AI berbasis (Big) Data

Data

Menjadi

Sistem Intelijen
(berbasis Pengetahuan)
Sistem AI berbasis (Big) Data dikembangkan dalam 2 tahap

1. Pengembangan
(Pelatihan)

2. Penggunaan
Tujuan Tugas/ Task yang Biasa Dikembangkan
Descriptive:
01
Menjelaskan keadaan bisnis saat ini melalui data historis.
Diagnostic:
02 Menjelaskan mengapa suatu masalah terjadi dengan melihat data
historis.
Predictive:
03 Memproyeksikan atau memprediksi hasil masa depan
berdasarkan data historis.
Prescriptive:
04 Menggunakan hasil analitik prediktif dan pengetahuan lain
dengan menyarankan upaya terbaik di masa depan.
Jenis Task yang Dikembangkan

Regression /
Classification Clustering Association
Estimation

Anomaly Sequence Recommendation


Detection Mining Systems
Mayoritas Proyek Pengembangan AI/DS Gagal

https://www.slideshare.net/PMI-Montreal/symposium-2019-gestion-de-projet-en-intelligence-
artificielle
Mayoritas Proyek Pengembangan AI/DS Gagal
Perlu Metodologi Pengembangan

Pengembangan Sistem AI berdasar data



Data + Machine Learning (ML) Algorithms

Metodologi Pengembangan
Metoda iterative yang dipakai untuk menyelesaikan masalah dengan mengguna-kan data dan data
science melalui urutan langkah yang ditentukan
Berbagai Metodologi Data Science
Jenis Metodologi

● Metodologi kegiatanTeknis
● Metodologi kegiatan bisnis (dan teknis)
Metodologi Teknis: Kegiatan DS/AI dianggap Kegiatan
Teknikal
● Knowledge Discovery and Data Mining

https://www.kdnuggets.com/gpspubs/ai
mag-kdd-overview-1996-Fayyad.pdf
Metodologi Teknis: Kegiatan DS/AI dianggap Kegiatan
Teknikal
● SEMMA dari SAS Institute

https://documentation.sas.com/?docsetId=emref&docs
etTarget=n061bzurmej4j3n1jnj8bbjjm1a2.htm&docsetV
ersion=14.3&locale=en
Metodologi Lengkap: Kegiatan DS/AI dianggap Kegiatan
Bisnis: Masalah Bisnis menjadi Masalah DS/AI
● CRISP-DM

https://documentation.sas.com/?docsetId=emref&docs
etTarget=n061bzurmej4j3n1jnj8bbjjm1a2.htm&docsetV
ersion=14.3&locale=en
Metodologi Lengkap: Kegiatan DS/AI dianggap Kegiatan
Bisnis: Masalah Bisnis menjadi Masalah DS/AI
● IBM Data Science Methodology

https://www.slideshare.net/
JohnBRollinsPhD/foundational-methodology-for-data-science
Metodologi Lengkap: Kegiatan DS/AI dianggap Kegiatan
Bisnis: Masalah Bisnis menjadi Masalah DS/AI
● Microsoft’s Team Data Science Process

https://docs.microsoft.com/en-us/azure
/machine-learning/team-data-science-process/overview
Metodologi Lengkap: Kegiatan DS/AI dianggap Kegiatan
Bisnis: Masalah Bisnis menjadi Masalah DS/AI
● Domino DataLab Methodology

https://www.dominodatalab.com/
Standard Kompetensi Kerja Nasional:
Bagaimana di Indonesia? KepMen Ketenagakerjaan No 299 thn 2020
Tim Pengembang: Kegiatan Bersama
01 Data Scientist
Mengembangkan model terbaik dari data untuk menjawab permasalahan bisnis

02 Data Engineer
Menyiapkan (big) data untuk diolah/ dimodelkan

03 Data Analyst
Menganalisis/ mencari insight dari data (dan menampilkannya dalam dashboard)

04
Project/ Product Manager
Mengelola projek/ produk berbasis data.

05 Domain Expert
Memberi arahan tentang domain permasalahan

IT People
06 Menyiapkan infrastruktur IT (terutama deployment)
Langkah Pengembangan
1. Business Understanding: Menentukan Masalah Bisnis
Kasus: Kegagalan Kredit

Problem:
Bagaimana menurunkan NPL suatu bank
Pertanyaan:
Bagaimana memperbaiki perhitungan Credit score
Measurable outcomes:
% Penurunan kredit gagal bayar

westonlegal.com
1. Business Understanding: Menentukan Tugas Analytics
Apa Tugas Analitiks yang perlu diselesaikan
untuk menjawab permasalahan bisnis?

A. Regresi/Estimasi: Memprediksi nilai kontinyu dari kasus


• Prediksi harga rumah berdasar karakteristik tertentu
• Prediksi harga saham besok
1. Business Understanding: Menentukan Tugas Analytics
Apa Tugas Analitiks yang perlu diselesaikan
untuk menjawab permasalahan bisnis?

B. Klasifikasi: Memprediksi kelas/ kategori dari kasus

• Prediksi kolektibilitas suatu pinjaman


• Prediksi kebangkrutan suatu perusahan di tahun depan
1. Business Understanding: Menentukan Tugas Analytics
Apa Tugas Analitiks yang perlu diselesaikan
untuk menjawab permasalahan bisnis?

C. Klastering: Mengelompokkan kasus berdasar kemiripan


• Segmentasi nasabah perbankan
• Pengelompokkan pasien yang mirip kasusnya
1. Business Understanding: Menentukan Tugas Analytics
Apa Tugas Analitiks yang perlu diselesaikan
untuk menjawab permasalahan bisnis?

D. Asosiasi: Memprediksi kumpulan item/ kejadian yang biasa


terjadi bersama

• Mencari barang jualan yang biasa dibeli bersama


• Menyusun portofolio saham
1. Business Understanding: Menentukan Tugas Analytics
A. Apa Tugas Analitiks yang perlu diselesaikan
untuk menjawab permasalahan bisnis?

E. Anomali Detection: Menemukan kasus abnormal/


tidak biasa terjadi

• Pendeteksian transaksi illegal penggunaan kartu kredit


• Pendeteksian penerobosan jaringan
1. Business Understanding: Menentukan Tugas Analytics
Apa Tugas Analitiks yang perlu diselesaikan
untuk menjawab permasalahan bisnis?

F. Sequence Mining: Memprediksi apa yang akan terjadi


dari keadaan saat ini

• Prediksi apakah nasabah akan berhenti berlangganan


• Menentukan alur pada transaksi e-commerce
1. Business Understanding: Menentukan Tugas Analytics
Apa Tugas Analitiks yang perlu diselesaikan
untuk menjawab permasalahan bisnis?

G. Rekomendasi: Memberikan rekomendasi pengguna berdasar asosiasi


preferensi dengan pengguna lain yang memiliki ‘taste’ yang sama

• Rekomendasi film untuk ditonton


• Rekomendasi saham untuk dibeli
1. Business Understanding: Menentukan Tugas Analytics
Pengukuran Performansi tergantung Jenis Task
Analytics

Metriks Performansi: Ukuran keberhasilan dari proses data science yang


dilakukan
Contoh: Root Mean Squared Error (RMSE)
R-Square
Jackard Index
Log-loss
Precision
Recall
F1-Score
1. Business Understanding: Menentukan Tugas Analytics
Kasus: Kegagalan Kredit
Apa Tugas Analitiks yang perlu diselesaikan untuk menjawab permasalahan bisnis tersebut?

Problem:
Bagaimana menurunkan NPL suatu bank
Pertanyaan:
Bagaimana memperbaiki perhitungan Credit score
Tugas Analitik:
Klasifikasi
Performance Metrics:
F1-Score

westonlegal.com
1. Business Understanding: Menentukan Kebutuhan Data
Data apa yang diperlukan?
Dari mana bisa diperoleh?

Struktur Data: Bagaimana deskripsi data (atribut) yang diperlukan


Jumlah Data: Berapa banyak (record) data yang diperlukan

Sumber Data: Darimana data bisa diperoleh? Apakah sudah tersedia?


- Internal: Sistem Informasi/ ERP, Excel, dokumen
- Eksternal: Web API, Web Scraping
- Dataset via public data
- Dataset via open data
1. Business Understanding: Merencanakan Manajemen Projek
Bagaimana rencana pelaksanaan projeknya?

Cost Benefit Analysis: Apakah menguntungkan untuk melakukannya?

Situation Assessment: Analisa keadaan organisasi

Project Plan: Scope (WBS), Time, Schedule, Tim Pengembang


2. Data Understanding :
Mengenali/ mendalami data yang dimiliki
01
Mengumpulkan Data Jumlah Data (Baris dan Kolom)
Mengumpulkan Data yang Diperlukan Deskripsi data

02
Menelaah data Karakteristik atribut/ fitur
Menganalisa data secara eksploratif Keterkaitan antar data

03
Memvalidasi Data
Kualitas Data
Menilai kesesuaian kualitas data de-
ngan masalah yang akan dipecahkan
2. Data Understanding :
Mengapa Perlu Mengenali/ mendalami data yang dimiliki
• The United States armed forces faced a dilemma during the
war, because returning bomber planes were riddled with bullet
holes and they needed better ways to protect them
• “Where should they put it?”
• When they plotted out the damage
these planes were incurring, it was
spread out, but largely concentrated
around the tail, body and wings.
• Should they upgrade these sections?
2. Data Understanding : Mengumpulkan Data

Mengumpulkan Data yang Diperlukan

Jumlah Data: Berapa banyak yang dapat diperoleh

Deskripsi Data: Penjelasan arti atribut/ fitur


2. Data Understanding : Menelaah Data

Menganalisa data secara eksploratif (EDA)

Karakteristik Atribut: Deskripsi data (atribut) yang diperoleh

Keterkaitan antar Data: Analisis statistik korelasi, Anova, Chi-Squared,…


2. Data Understanding : Memvalidasi Data

Menilai kesesuaian kualitas data de-


ngan masalah yang akan dipecahkan

Laporan Kualitas Data:


- Ukuran Data (Atribut/ fitur dan Jumlah record
- Deskripsi statistical atribut
- Relasi antar atribut (dan label)
- Visualisasi data
3. Data Preparation :
Memperbaiki kualitas data untuk Pemodelan

01
Memilih dan memilah data Rekord terpakai
Memilih data yang akan dipergunakan Atribut terpakai

02
Membersihan Data Data lengkap
Meminimalkan noise (tidak lengkap, salah) Data yang diperbaiki
Data Pecilan

03
Mengkonstruksi data Fitur tambahan (Feature Engineering)
Menambahkan fitur dan transformasi data Transformasi data (standardisasi, transformasi)

04
Integrasi Data
Menggabungkan data Gabungan data
4. Modeling :
Mengembangkan Model (Pengetahuan)

01
Membangun Skenario Pemodelan
Membuat strategi pencarian model terbaik
Pemilihan Algoritma Machine Learning (ML)
Pembagian Data
Penentuan Langkah Eksperimen

02
Membangun model
Mengembangkan model dengan Teknik ML
Eksekusi Algoritma
Pengaturan Parameter
Pengukuran Performance Metrics
4. Modeling : Membangun Skenario Pemodelan

Membuat strategi pencarian model terbaik

Pemilihan Algoritma Machine Learning (ML)


Pembagian Data
Penentuan Langkah Eksperimen
4. Modeling : Membangun Skenario Pemodelan

Membuat strategi pencarian model terbaik

A. Memilih Algoritma: Disesuaikan dengan Tugas Analytics yang dipilih


1. k-Nearest Neighbor (k-NN)
2. Naïve Bayes
3. Regression Techniques
4. Support Vector Machines (SVMs)
5. Decision Trees
6. Random Forests
7. Deep Learning Algorithms
8. ...
4. Modeling : Membangun Skenario Pemodelan

Membuat strategi pencarian model terbaik

B. Membagi data: Sesuai dengan ketersediaan data


1. Data Latih: Untuk mengembangkan model
2. Data Uji: Untuk Mengukur performansi model

Data
Latih

Split
Data

Data
Uji
4. Modeling : Membangun Skenario Pemodelan

Membuat strategi pencarian model terbaik

C. Menentukan Langkah Eksperimen: Untuk mendapatkan model


terbaik secara efisien dan efektif

Best Guess One Factor at A Time Grid Search


4. Modeling : Membangun model

Mengembangkan model dengan Teknik ML

Pemilihan Algoritma Machine Learning (ML)


Pembagian Data
Penentuan Langkah Eksperimen
4. Modeling : Membangun model

Mengembangkan model dengan Teknik ML

A. Proses Pelatihan : Untuk mendapatkan model

Data Teknik ML Model


Latih
1. k-Nearest Neighbor (k-NN)
2. Naïve Bayes
3. Regression Techniques
4. Support Vector Machines (SVMs)
5. Decision Trees
6. Random Forests
7. Deep Learning Algorithms
8. ...
4. Modeling : Membangun model

Mengembangkan model dengan Teknik ML

B. Proses Pengujian : Untuk mengukur Performansi

Data Model Decision


Uji
5. Model Evaluation

Mengevaluasi Performansi Model Yang Dihasilkan

01
Mengevaluasi Model Performansi Capaian vs Target
Memilih Model terbaik
Mengukur performansi model

02
Mengevaluasi Proses Review Proses untuk mencari
batasan atau kekurangan model
Menilai apakah proses sudah maksimal
Summary

Pada topik ini, kita sudah mempelajari:


● Langkah-langkah utama dalam menggunakan data untuk membuat suatu aplikasi AI berdasar
metodologi data science
● Pengembangan sistem Ai berdasar data bukan hanya masalah teknis (terkait data) namun
merupakan masalah bisnis/ organisasi
● Pengembangan sistem melibatkan Pakar Domain, Pakar Data Science/ AI, Pakar Manajemen
Projek, dan Pakar TI dalam satu Tim
Tools / Lab Online
Referensi
● Standard Kompetensi Kerja Nasional Indonesia Bidang AI sub bidang Data Science
○ https://skkni.kemnaker.go.id/tentang-skkni/dokumen
● CRISP-DM
○ http://crisp-dm.eu/
● IBM Data Science Methodology
○ https://www.slideshare.net/JohnBRollinsPhD/foundational-methodology-for-data-science
● Microsoft Methodology
○ https://docs.microsoft.com/en-us/azure/machine-learning/team-data-science-process/overview
● Domino Methodology
○ https://www.dominodatalab.com/
Team Teaching

● Windy Gambetta, Ir., MBA (Institut Teknologi Bandung)


○ Email: [email protected]
Quiz / Games

● Quiz dapat diakses melalui LMS (https://lms.kominfo.go.id/)


#Jadijagoandigital
Terima Kasih

Anda mungkin juga menyukai