0% menganggap dokumen ini bermanfaat (0 suara)
3 tayangan

Machine learning workflow

Dokumen ini menjelaskan alur kerja machine learning yang mencakup pengumpulan data, analisis eksplorasi data, preprocessing, pemilihan model, evaluasi model, dan penerapan model. Setiap tahap memiliki langkah-langkah spesifik, seperti analisis univariate, multivariate, dan teknik normalisasi data. Selain itu, pentingnya pemantauan model setelah penerapan juga ditekankan untuk memastikan kinerja yang andal.

Diunggah oleh

Rizki Aminullah
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
3 tayangan

Machine learning workflow

Dokumen ini menjelaskan alur kerja machine learning yang mencakup pengumpulan data, analisis eksplorasi data, preprocessing, pemilihan model, evaluasi model, dan penerapan model. Setiap tahap memiliki langkah-langkah spesifik, seperti analisis univariate, multivariate, dan teknik normalisasi data. Selain itu, pentingnya pemantauan model setelah penerapan juga ditekankan untuk memastikan kinerja yang andal.

Diunggah oleh

Rizki Aminullah
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 6

Machine Learning Workflow

Tuesday, 15 April 2025


20:13

Illustrasi Workflow

1. Data Collecting

Proses pengambilan dataset dari website atau dari api publik yang tersedia
Bisa juga melalui data sensor yang tersedia misalnya dari sensor sensor perkotaan yang
tersedia.

1. EDA (Exploratory Data Analysis)

Proses mengecek dataset apakah dataset yang kita dapatkan perlu dinormalisasi atau tidak
dengan tujuan
Untuk menghindari kesalahan pada machine learning yang kita buat pada proses ini dibagi
menjadi beberapa bagian ada univariate, multivariate dan bivariate.
• Univariate analysis

univariate adalah analisis yang melibatkan hanya satu variabel dalam satu waktu tertentu.
Tujuan dari analisis univariate ini untuk memahami distribusi, central tendency (contoh: mean,
median) dan penyebaran data (contoh: varians, standar deviasi) dari satu variabel. Contoh
eksplorasi yang dapat dilakukan berupa histogram, box plot, bar plot, dan lain sebagainya.

• Multivariate analysis

bivariate analisis melibatkan dua variabel pada satu waktu tertentu untuk memahami
hubungan atau asosiasi antar variabel yang digunakan. Analisis ini bertujuan untuk
mengeksplorasi adanya hubungan antara dua variabel, apakah salah satunya memengaruhi
yang lain, atau bagaimana kedua variabel tersebut berinteraksi. Biasanya analisis ini
menggunakan visualisasi scatter plot, crosstab, box plot, dan lain sebagainya.

• Multivariate analysis

Last but not least, multivariate analisis akan melibatkan lebih dari dua variabel pada satu
waktu tertentu. Ini bisa mencakup tiga atau lebih variabel sekaligus yang tidak bisa dijelaskan
dengan analisis univariate ataupun bivariate. Cara ini akan membantu dalam mengidentifikasi
pola tersembunyi atau interaksi antara variabel yang mungkin akan memengaruhi hasil. Cara
ini bisa divisualkan dengan menggunakan pair plot, heatmap, principal component analysis,
dan lain sebagainya.

2. Data preprocessing

Data preprocessing adalah langkah penting dalam alur kerja machine learning yang bertujuan
untuk mempersiapkan data mentah agar dapat digunakan secara efektif oleh model machine
learning.

Proses ini mencakup serangkaian teknik dan transformasi untuk memastikan data yang
digunakan berkualitas tinggi, konsisten, dan relevan dengan tujuan analisis atau pemodelan.
Dengan kata lain, proses ini mengubah dan mentransformasi fitur-fitur data ke dalam bentuk
yang mudah diinterpretasikan dan diproses oleh algoritma machine learning.

Beberapa stepnya sebagai berikut :

• Mengidentifikasi dan menangani data yang hilang


Data yang hilang atau missing value adalah masalah umum dalam dataset yang harus
ditangani. Beberapa cara penanganannya dengan cara menghapus data yang hilang atau
melakukan imputasi data. Imputasi adalah mengganti data yang hilang dengan nilai lain
(contoh: mean, median, modus dan lain sebagainya).

• Mengidentifikasi dan menangani outliers

Outlier adalah data yang jauh berbeda dari mayoritas data lainnya. Outlier dapat
memengaruhi performa model, terutama pada algoritma yang sensitif seperti regresi linear.
Beberapa cara menanganinya dengan cara menghapus outlier, melakukan transformasi data,
atau mengubah nilai menjadi lebih dekat ke distribusi normal.

• Normalisasi data (Normalization)

Mengubah skala data sehingga berada dalam rentang tertentu, biasanya antara 0 dan 1.

• Standarisasi (Standarization)

Mengubah data sehingga memiliki distribusi dengan mean 0 dan standar deviasi 1. Ini sering
digunakan ketika data memiliki distribusi Gaussian.

• Transformasi log atau sqrt

Menggunakan transformasi logaritmik atau akar kuadrat untuk mengurangi skewness data.

• Encoding pada sebuah data

model machine learning itu hanya dapat bekerja dengan data numerik sehingga variabel
kategorikal harus diubah menjadi bentuk numerik. Beberapa cara yang bisa Anda lakukan
untuk menyelesaikan permasalahan tersebut antara lain

Beberapa teknik encoding pada sebuah data :

• Label encoding

mengubah kategori menjadi label numerik. Ini cocok untuk variabel dengan hubungan ordinal.

• One hot encoding

mengubah setiap kategori menjadi kolom biner terpisah (0 atau 1). Ini digunakan ketika tidak
ada

• Ordinal encoding

mengubah kategori ke dalam bentuk label numerik berdasarkan urutan atau tingkatan.

• Feature scaling

Ketika data memiliki fitur dengan skala yang berbeda-beda, fitur dengan skala lebih besar bisa
mendominasi algoritma machine learning tertentu seperti K-Nearest Neighbors atau Support
Vector Machines. Untuk itulah fitur scaling diperlukan karena dapat mengatasi permasalahan
tersebut. Berikut beberapa cara untuk melakukan feature scaling.

• Min Max scaler

mengubah fitur ke dalam rentang antara nilai minimum dan maksimum yang diinginkan.

• Standarization

skala fitur ke dalam distribusi Gaussian dengan mean 0 dan standar deviasi 1.

4. Model selection

Model selection adalah langkah penting dalam alur kerja machine learning yang melibatkan
pemilihan algoritma terbaik untuk memecahkan masalah spesifik berdasarkan data yang
tersedia. Pemilihan model yang tepat dapat secara signifikan memengaruhi kinerja akhir dari
solusi machine learning.

Ada beberapa langkah untuk melakukan model selection :

• Klasifikasi dengan tujuan apakah termasuk kepada spam dan no spam


• Regresi untuk menentukan permasalahan yang bersifat kontinu.
• Masalah dengan klastering pengelompokan data ke dalam grup.
• Masalah dengan dimesionality seperti pengurangan fitur pada sebuah data.
• Masalah dengan time series memprediksi harga saham.

5. Model evaluation (evaluasi model)

Pada taha ini model juga perlu di evaluasi untuk mengetahui sejauh mana model dapat
bekerja apakah sudah
Baik atau ada indikasi menunjuakan overfitting atau underfitting.
• persentase prediksi yang benar dari total prediksi (digunakan untuk klasifikasi).4
• Precision dan Recall: digunakan untuk masalah klasifikasi, terutama ketika data tidak
seimbang.
• F1-Score: kombinasi precision dan recall yang lebih detail.
• Mean Squared Error (MSE) atau Mean Absolute Error (MAE): digunakan untuk regresi untuk
mengukur seberapa jauh prediksi dari nilai sebenarnya.
• ROC-AUC Score: digunakan untuk mengevaluasi kinerja klasifikasi pada berbagai threshold.

6. Model deployment

Pada tahap ini kita akan deploy model pada sebuah sistem misalnya model untuk memprediksi
harga saham
Kita bisa menggunakan library tensorflow dan sebagainya lalu kita menanam modelnya pada
sebuah server atau langsung pada sebuah sistem tersebut.

1. Monitoring
Nah model yang tadi sudah di deploy dan sudah digunakan pada sebuah sistem akan terus
dipantau dan dilakukan maintance agar model tetap realiable dan andal untuk jangka waktu
yang panjang.

Anda mungkin juga menyukai