Machine learning workflow
Machine learning workflow
Illustrasi Workflow
1. Data Collecting
Proses pengambilan dataset dari website atau dari api publik yang tersedia
Bisa juga melalui data sensor yang tersedia misalnya dari sensor sensor perkotaan yang
tersedia.
Proses mengecek dataset apakah dataset yang kita dapatkan perlu dinormalisasi atau tidak
dengan tujuan
Untuk menghindari kesalahan pada machine learning yang kita buat pada proses ini dibagi
menjadi beberapa bagian ada univariate, multivariate dan bivariate.
• Univariate analysis
univariate adalah analisis yang melibatkan hanya satu variabel dalam satu waktu tertentu.
Tujuan dari analisis univariate ini untuk memahami distribusi, central tendency (contoh: mean,
median) dan penyebaran data (contoh: varians, standar deviasi) dari satu variabel. Contoh
eksplorasi yang dapat dilakukan berupa histogram, box plot, bar plot, dan lain sebagainya.
• Multivariate analysis
bivariate analisis melibatkan dua variabel pada satu waktu tertentu untuk memahami
hubungan atau asosiasi antar variabel yang digunakan. Analisis ini bertujuan untuk
mengeksplorasi adanya hubungan antara dua variabel, apakah salah satunya memengaruhi
yang lain, atau bagaimana kedua variabel tersebut berinteraksi. Biasanya analisis ini
menggunakan visualisasi scatter plot, crosstab, box plot, dan lain sebagainya.
• Multivariate analysis
Last but not least, multivariate analisis akan melibatkan lebih dari dua variabel pada satu
waktu tertentu. Ini bisa mencakup tiga atau lebih variabel sekaligus yang tidak bisa dijelaskan
dengan analisis univariate ataupun bivariate. Cara ini akan membantu dalam mengidentifikasi
pola tersembunyi atau interaksi antara variabel yang mungkin akan memengaruhi hasil. Cara
ini bisa divisualkan dengan menggunakan pair plot, heatmap, principal component analysis,
dan lain sebagainya.
2. Data preprocessing
Data preprocessing adalah langkah penting dalam alur kerja machine learning yang bertujuan
untuk mempersiapkan data mentah agar dapat digunakan secara efektif oleh model machine
learning.
Proses ini mencakup serangkaian teknik dan transformasi untuk memastikan data yang
digunakan berkualitas tinggi, konsisten, dan relevan dengan tujuan analisis atau pemodelan.
Dengan kata lain, proses ini mengubah dan mentransformasi fitur-fitur data ke dalam bentuk
yang mudah diinterpretasikan dan diproses oleh algoritma machine learning.
Outlier adalah data yang jauh berbeda dari mayoritas data lainnya. Outlier dapat
memengaruhi performa model, terutama pada algoritma yang sensitif seperti regresi linear.
Beberapa cara menanganinya dengan cara menghapus outlier, melakukan transformasi data,
atau mengubah nilai menjadi lebih dekat ke distribusi normal.
Mengubah skala data sehingga berada dalam rentang tertentu, biasanya antara 0 dan 1.
• Standarisasi (Standarization)
Mengubah data sehingga memiliki distribusi dengan mean 0 dan standar deviasi 1. Ini sering
digunakan ketika data memiliki distribusi Gaussian.
Menggunakan transformasi logaritmik atau akar kuadrat untuk mengurangi skewness data.
model machine learning itu hanya dapat bekerja dengan data numerik sehingga variabel
kategorikal harus diubah menjadi bentuk numerik. Beberapa cara yang bisa Anda lakukan
untuk menyelesaikan permasalahan tersebut antara lain
• Label encoding
mengubah kategori menjadi label numerik. Ini cocok untuk variabel dengan hubungan ordinal.
mengubah setiap kategori menjadi kolom biner terpisah (0 atau 1). Ini digunakan ketika tidak
ada
• Ordinal encoding
mengubah kategori ke dalam bentuk label numerik berdasarkan urutan atau tingkatan.
• Feature scaling
Ketika data memiliki fitur dengan skala yang berbeda-beda, fitur dengan skala lebih besar bisa
mendominasi algoritma machine learning tertentu seperti K-Nearest Neighbors atau Support
Vector Machines. Untuk itulah fitur scaling diperlukan karena dapat mengatasi permasalahan
tersebut. Berikut beberapa cara untuk melakukan feature scaling.
mengubah fitur ke dalam rentang antara nilai minimum dan maksimum yang diinginkan.
• Standarization
skala fitur ke dalam distribusi Gaussian dengan mean 0 dan standar deviasi 1.
4. Model selection
Model selection adalah langkah penting dalam alur kerja machine learning yang melibatkan
pemilihan algoritma terbaik untuk memecahkan masalah spesifik berdasarkan data yang
tersedia. Pemilihan model yang tepat dapat secara signifikan memengaruhi kinerja akhir dari
solusi machine learning.
Pada taha ini model juga perlu di evaluasi untuk mengetahui sejauh mana model dapat
bekerja apakah sudah
Baik atau ada indikasi menunjuakan overfitting atau underfitting.
• persentase prediksi yang benar dari total prediksi (digunakan untuk klasifikasi).4
• Precision dan Recall: digunakan untuk masalah klasifikasi, terutama ketika data tidak
seimbang.
• F1-Score: kombinasi precision dan recall yang lebih detail.
• Mean Squared Error (MSE) atau Mean Absolute Error (MAE): digunakan untuk regresi untuk
mengukur seberapa jauh prediksi dari nilai sebenarnya.
• ROC-AUC Score: digunakan untuk mengevaluasi kinerja klasifikasi pada berbagai threshold.
6. Model deployment
Pada tahap ini kita akan deploy model pada sebuah sistem misalnya model untuk memprediksi
harga saham
Kita bisa menggunakan library tensorflow dan sebagainya lalu kita menanam modelnya pada
sebuah server atau langsung pada sebuah sistem tersebut.
1. Monitoring
Nah model yang tadi sudah di deploy dan sudah digunakan pada sebuah sistem akan terus
dipantau dan dilakukan maintance agar model tetap realiable dan andal untuk jangka waktu
yang panjang.