0% menganggap dokumen ini bermanfaat (0 suara)

3 tayangan

Machine learning workflow

Dokumen ini menjelaskan alur kerja machine learning yang mencakup pengumpulan data, analisis eksplorasi data, preprocessing, pemilihan model, evaluasi model, dan penerapan model. Setiap tahap memiliki langkah-langkah spesifik, seperti analisis univariate, multivariate, dan teknik normalisasi data. Selain itu, pentingnya pemantauan model setelah penerapan juga ditekankan untuk memastikan kinerja yang andal.

Diunggah oleh

Rizki Aminullah

Hak Cipta

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

3 tayangan

Machine learning workflow

Diunggah oleh

Rizki Aminullah

Hak Cipta

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 6

Machine Learning Workflow

Tuesday, 15 April 2025

20:13

Illustrasi Workflow

1. Data Collecting

Proses pengambilan dataset dari website atau dari api publik yang tersedia
Bisa juga melalui data sensor yang tersedia misalnya dari sensor sensor perkotaan yang
tersedia.

1. EDA (Exploratory Data Analysis)

Proses mengecek dataset apakah dataset yang kita dapatkan perlu dinormalisasi atau tidak
dengan tujuan
Untuk menghindari kesalahan pada machine learning yang kita buat pada proses ini dibagi
menjadi beberapa bagian ada univariate, multivariate dan bivariate.
• Univariate analysis

univariate adalah analisis yang melibatkan hanya satu variabel dalam satu waktu tertentu.
Tujuan dari analisis univariate ini untuk memahami distribusi, central tendency (contoh: mean,
median) dan penyebaran data (contoh: varians, standar deviasi) dari satu variabel. Contoh
eksplorasi yang dapat dilakukan berupa histogram, box plot, bar plot, dan lain sebagainya.

• Multivariate analysis

bivariate analisis melibatkan dua variabel pada satu waktu tertentu untuk memahami
hubungan atau asosiasi antar variabel yang digunakan. Analisis ini bertujuan untuk
mengeksplorasi adanya hubungan antara dua variabel, apakah salah satunya memengaruhi
yang lain, atau bagaimana kedua variabel tersebut berinteraksi. Biasanya analisis ini
menggunakan visualisasi scatter plot, crosstab, box plot, dan lain sebagainya.

• Multivariate analysis

Last but not least, multivariate analisis akan melibatkan lebih dari dua variabel pada satu
waktu tertentu. Ini bisa mencakup tiga atau lebih variabel sekaligus yang tidak bisa dijelaskan
dengan analisis univariate ataupun bivariate. Cara ini akan membantu dalam mengidentifikasi
pola tersembunyi atau interaksi antara variabel yang mungkin akan memengaruhi hasil. Cara
ini bisa divisualkan dengan menggunakan pair plot, heatmap, principal component analysis,
dan lain sebagainya.

2. Data preprocessing

Data preprocessing adalah langkah penting dalam alur kerja machine learning yang bertujuan
untuk mempersiapkan data mentah agar dapat digunakan secara efektif oleh model machine
learning.

Proses ini mencakup serangkaian teknik dan transformasi untuk memastikan data yang
digunakan berkualitas tinggi, konsisten, dan relevan dengan tujuan analisis atau pemodelan.
Dengan kata lain, proses ini mengubah dan mentransformasi fitur-fitur data ke dalam bentuk
yang mudah diinterpretasikan dan diproses oleh algoritma machine learning.

Beberapa stepnya sebagai berikut :

• Mengidentifikasi dan menangani data yang hilang

Data yang hilang atau missing value adalah masalah umum dalam dataset yang harus
ditangani. Beberapa cara penanganannya dengan cara menghapus data yang hilang atau
melakukan imputasi data. Imputasi adalah mengganti data yang hilang dengan nilai lain
(contoh: mean, median, modus dan lain sebagainya).

• Mengidentifikasi dan menangani outliers

Outlier adalah data yang jauh berbeda dari mayoritas data lainnya. Outlier dapat
memengaruhi performa model, terutama pada algoritma yang sensitif seperti regresi linear.
Beberapa cara menanganinya dengan cara menghapus outlier, melakukan transformasi data,
atau mengubah nilai menjadi lebih dekat ke distribusi normal.

• Normalisasi data (Normalization)

Mengubah skala data sehingga berada dalam rentang tertentu, biasanya antara 0 dan 1.

• Standarisasi (Standarization)

Mengubah data sehingga memiliki distribusi dengan mean 0 dan standar deviasi 1. Ini sering
digunakan ketika data memiliki distribusi Gaussian.

• Transformasi log atau sqrt

Menggunakan transformasi logaritmik atau akar kuadrat untuk mengurangi skewness data.

• Encoding pada sebuah data

model machine learning itu hanya dapat bekerja dengan data numerik sehingga variabel
kategorikal harus diubah menjadi bentuk numerik. Beberapa cara yang bisa Anda lakukan
untuk menyelesaikan permasalahan tersebut antara lain

Beberapa teknik encoding pada sebuah data :

• Label encoding

mengubah kategori menjadi label numerik. Ini cocok untuk variabel dengan hubungan ordinal.

• One hot encoding

mengubah setiap kategori menjadi kolom biner terpisah (0 atau 1). Ini digunakan ketika tidak
ada

• Ordinal encoding

mengubah kategori ke dalam bentuk label numerik berdasarkan urutan atau tingkatan.

• Feature scaling

Ketika data memiliki fitur dengan skala yang berbeda-beda, fitur dengan skala lebih besar bisa
mendominasi algoritma machine learning tertentu seperti K-Nearest Neighbors atau Support
Vector Machines. Untuk itulah fitur scaling diperlukan karena dapat mengatasi permasalahan
tersebut. Berikut beberapa cara untuk melakukan feature scaling.

• Min Max scaler

mengubah fitur ke dalam rentang antara nilai minimum dan maksimum yang diinginkan.

• Standarization

skala fitur ke dalam distribusi Gaussian dengan mean 0 dan standar deviasi 1.

4. Model selection

Model selection adalah langkah penting dalam alur kerja machine learning yang melibatkan
pemilihan algoritma terbaik untuk memecahkan masalah spesifik berdasarkan data yang
tersedia. Pemilihan model yang tepat dapat secara signifikan memengaruhi kinerja akhir dari
solusi machine learning.

Ada beberapa langkah untuk melakukan model selection :

• Klasifikasi dengan tujuan apakah termasuk kepada spam dan no spam

• Regresi untuk menentukan permasalahan yang bersifat kontinu.
• Masalah dengan klastering pengelompokan data ke dalam grup.
• Masalah dengan dimesionality seperti pengurangan fitur pada sebuah data.
• Masalah dengan time series memprediksi harga saham.

5. Model evaluation (evaluasi model)

Pada taha ini model juga perlu di evaluasi untuk mengetahui sejauh mana model dapat
bekerja apakah sudah
Baik atau ada indikasi menunjuakan overfitting atau underfitting.
• persentase prediksi yang benar dari total prediksi (digunakan untuk klasifikasi).4
• Precision dan Recall: digunakan untuk masalah klasifikasi, terutama ketika data tidak
seimbang.
• F1-Score: kombinasi precision dan recall yang lebih detail.
• Mean Squared Error (MSE) atau Mean Absolute Error (MAE): digunakan untuk regresi untuk
mengukur seberapa jauh prediksi dari nilai sebenarnya.
• ROC-AUC Score: digunakan untuk mengevaluasi kinerja klasifikasi pada berbagai threshold.

6. Model deployment

Pada tahap ini kita akan deploy model pada sebuah sistem misalnya model untuk memprediksi
harga saham
Kita bisa menggunakan library tensorflow dan sebagainya lalu kita menanam modelnya pada
sebuah server atau langsung pada sebuah sistem tersebut.

1. Monitoring
Nah model yang tadi sudah di deploy dan sudah digunakan pada sebuah sistem akan terus
dipantau dan dilakukan maintance agar model tetap realiable dan andal untuk jangka waktu
yang panjang.

Anda mungkin juga menyukai

Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
4/5 (16)
Pemrograman Berorientasi Objek dengan Visual C#
Dari Everand
Pemrograman Berorientasi Objek dengan Visual C#
Risal
3.5/5 (6)
5 Implementasi Machine Learning Menggunakan Bahasa Python
Belum ada peringkat
5 Implementasi Machine Learning Menggunakan Bahasa Python
22 halaman
Pertemuan 2 Pembelajaran Mesin
Belum ada peringkat
Pertemuan 2 Pembelajaran Mesin
11 halaman
Tugas - Individu (PembelajaranMesin) - Josua Sambouw - 210211060154
Belum ada peringkat
Tugas - Individu (PembelajaranMesin) - Josua Sambouw - 210211060154
5 halaman
Learning Progress Review Week 7
Belum ada peringkat
Learning Progress Review Week 7
25 halaman
Teknik ML(AI)
Belum ada peringkat
Teknik ML(AI)
3 halaman
Muhammad Fikri 2120013 (1-3)
Belum ada peringkat
Muhammad Fikri 2120013 (1-3)
12 halaman
LPR Week 7 Kudatinta
Belum ada peringkat
LPR Week 7 Kudatinta
30 halaman
Fundamental of Machine Learning
Belum ada peringkat
Fundamental of Machine Learning
3 halaman
Pendahuluan: Piramida Data
Belum ada peringkat
Pendahuluan: Piramida Data
148 halaman
Materi 2 - Teknik Regresi Pada Machine Learning - 7
Belum ada peringkat
Materi 2 - Teknik Regresi Pada Machine Learning - 7
48 halaman
Proses Analisis Data Dan Model Prediksi
Belum ada peringkat
Proses Analisis Data Dan Model Prediksi
12 halaman
Percobaan 1
Belum ada peringkat
Percobaan 1
12 halaman
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
Belum ada peringkat
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
24 halaman
Learning Progress Review Week 9
Belum ada peringkat
Learning Progress Review Week 9
35 halaman
Kelompok Tomodachi
Belum ada peringkat
Kelompok Tomodachi
28 halaman
LKS SMK Tingkat Provinsi Jawa Tengah
Belum ada peringkat
LKS SMK Tingkat Provinsi Jawa Tengah
24 halaman
Machine Learning
Belum ada peringkat
Machine Learning
4 halaman
Kopekan UAS Pengantar Sains Data
Belum ada peringkat
Kopekan UAS Pengantar Sains Data
18 halaman
LPR 11
Belum ada peringkat
LPR 11
27 halaman
Bab 3 Metode Penelitian
Belum ada peringkat
Bab 3 Metode Penelitian
8 halaman
Statistics and Machine Learning Toolbox
Belum ada peringkat
Statistics and Machine Learning Toolbox
9 halaman
Track 1 - 4 Months
Belum ada peringkat
Track 1 - 4 Months
7 halaman
Machine Learning With Python For Beginner
Belum ada peringkat
Machine Learning With Python For Beginner
64 halaman
Modul 2 Algoritma Machine Learning
Belum ada peringkat
Modul 2 Algoritma Machine Learning
4 halaman
Machine Learning With Python For Beginner
Belum ada peringkat
Machine Learning With Python For Beginner
6 halaman
Laporan Progress 2 MBKM USK - M Daffa Adrian Sitorus
Belum ada peringkat
Laporan Progress 2 MBKM USK - M Daffa Adrian Sitorus
7 halaman
Tugas - Pertemuan5 - Machine Learning
Belum ada peringkat
Tugas - Pertemuan5 - Machine Learning
4 halaman
Machine Learning Konsepdan Implementasi
Belum ada peringkat
Machine Learning Konsepdan Implementasi
11 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
6-Machine Learning Lifecycle 2
Belum ada peringkat
6-Machine Learning Lifecycle 2
32 halaman
Laporan Praktik Minggu Ke-Coding & Machine Learning Nilai
Belum ada peringkat
Laporan Praktik Minggu Ke-Coding & Machine Learning Nilai
21 halaman
Rangkuman Data Mining
Belum ada peringkat
Rangkuman Data Mining
15 halaman
PPT Big Data & Machine Learning
Belum ada peringkat
PPT Big Data & Machine Learning
25 halaman
Diva Alvania Andi Abduh - Mempelajari Machine Learning Dengan Python
Belum ada peringkat
Diva Alvania Andi Abduh - Mempelajari Machine Learning Dengan Python
2 halaman
Data Mining
Belum ada peringkat
Data Mining
8 halaman
Kecerdasan Buatan
Belum ada peringkat
Kecerdasan Buatan
22 halaman
KOMPARASI METODE SARIMA DAN TRIPLE EXPONENTIAL SMOOTHING PADA PERAMALAN BILL LISTRIK Revisi[1]-9
Belum ada peringkat
KOMPARASI METODE SARIMA DAN TRIPLE EXPONENTIAL SMOOTHING PADA PERAMALAN BILL LISTRIK Revisi[1]-9
1 halaman
Glosarium
Belum ada peringkat
Glosarium
8 halaman
3- Data Analytic
Belum ada peringkat
3- Data Analytic
12 halaman
0406-P02
Belum ada peringkat
0406-P02
19 halaman
DasarML
Belum ada peringkat
DasarML
3 halaman
Gunadarma DSI Machine-Learning
Belum ada peringkat
Gunadarma DSI Machine-Learning
52 halaman
Track 1 - Intro To Artificial Intelligence, Machine Learning & Deep Learning Syllabus - Evolve Machine Learners
Belum ada peringkat
Track 1 - Intro To Artificial Intelligence, Machine Learning & Deep Learning Syllabus - Evolve Machine Learners
17 halaman
P Roses Data Mining
Belum ada peringkat
P Roses Data Mining
40 halaman
Tugas Datmin Teori
Belum ada peringkat
Tugas Datmin Teori
3 halaman
Implementasi Machine Learning Scikit-Learn Python
Belum ada peringkat
Implementasi Machine Learning Scikit-Learn Python
17 halaman
Kecerdasan Buatan Pada Robot - Machine Learning
Belum ada peringkat
Kecerdasan Buatan Pada Robot - Machine Learning
58 halaman
Pertemuan-03-Membangun Skenario Pemodelan
Belum ada peringkat
Pertemuan-03-Membangun Skenario Pemodelan
19 halaman
Kelompok 4 - BDA C - Analisis Projek UTS
Belum ada peringkat
Kelompok 4 - BDA C - Analisis Projek UTS
47 halaman
Article_Review_10__Feature_Engineering-56342726-7819-4368-a929-4860996e0b1b
Belum ada peringkat
Article_Review_10__Feature_Engineering-56342726-7819-4368-a929-4860996e0b1b
17 halaman
BAB 8 - PYTHON UNTUK SAINS DATA - MESIN PEMBELAJARAN - Edited
Belum ada peringkat
BAB 8 - PYTHON UNTUK SAINS DATA - MESIN PEMBELAJARAN - Edited
14 halaman
Pertemuan - 2. Klasifikasi MLPPTX
Belum ada peringkat
Pertemuan - 2. Klasifikasi MLPPTX
23 halaman
Algoritma_Machine_Learning_dalam_Data_Analysis-2
Belum ada peringkat
Algoritma_Machine_Learning_dalam_Data_Analysis-2
14 halaman
Kel 3 Dai - 007
Belum ada peringkat
Kel 3 Dai - 007
25 halaman
La - Modul7 - TGB - 121120034 - Anggita Miftahul Jannah
Belum ada peringkat
La - Modul7 - TGB - 121120034 - Anggita Miftahul Jannah
26 halaman
PERTEMUAN 2 Machine-Learning
Belum ada peringkat
PERTEMUAN 2 Machine-Learning
8 halaman
Module 3a - Machine Learning
Belum ada peringkat
Module 3a - Machine Learning
31 halaman
Strategi Meningkatkan Kinerja Guru
Dari Everand
Strategi Meningkatkan Kinerja Guru
Andi Sulistiadi
5/5 (1)
Tugas Pertemuan 7 (1)
Belum ada peringkat
Tugas Pertemuan 7 (1)
1 halaman
P5 Greedy
Belum ada peringkat
P5 Greedy
24 halaman
127.+Adam+(1309-1316)
Belum ada peringkat
127.+Adam+(1309-1316)
8 halaman
P1 - Overview Materi & Persiapan Software
Belum ada peringkat
P1 - Overview Materi & Persiapan Software
21 halaman
P2_-_Objek_2Ds.pptx...
Belum ada peringkat
P2_-_Objek_2Ds.pptx...
21 halaman
P4_Akhlak dan Pergaulan Islami-1
Belum ada peringkat
P4_Akhlak dan Pergaulan Islami-1
11 halaman
Sistem Informasi Akademik (Simak) Universitas Pakuan _
Belum ada peringkat
Sistem Informasi Akademik (Simak) Universitas Pakuan _
2 halaman
Soal-Soal Presentasi Pik
Belum ada peringkat
Soal-Soal Presentasi Pik
2 halaman