Machine Learning - Kharisma Sda - 8020210009
Machine Learning - Kharisma Sda - 8020210009
amanatun
Nim:8020210009
Kelas:01PT6
Mata Kuliah:Machine
Learning II
1. Eksplorasi Data
Memahami struktur dataset, termasuk jumlah baris dan kolom, serta jenis label sentimen yang tersedia (positif,
negatif, atau netral).
Melakukan analisis statistik deskriptif untuk memahami distribusi kelas sentimen.
2. Preprocessing Teks
3. Pembagian Dataset
Membagi dataset menjadi subset pelatihan dan pengujian untuk menghindari overfitting dan memvalidasi
kinerja model.
Memilih algoritma klasifikasi yang sesuai untuk tugas sentimen analysis, seperti:
Naive Bayes
Support Vector Machines (SVM)
Logistic Regression
Decision Trees
Random Forest
Neural Networks (misalnya, LSTM, CNN untuk teks)
6. Evaluasi Model
8. Penyimpanan Model
Menerapkan model pada data baru untuk memprediksi sentimen ulasan produk secara real-time.
Memantau kinerja model secara berkala dan melakukan penyesuaian jika diperlukan.
Dengan mengikuti langkah-langkah ini dan memperhatikan teknik preprocessing teks yang tepat, pemilihan algoritma
klasifikasi yang sesuai, serta evaluasi model yang cermat, Anda dapat membangun model yang efektif untuk memprediksi
sentimen dari teks ulasan produk.
Code Python
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score,
confusion_matrix
import matplotlib.pyplot as plt
model.fit(X, y)
# Make predictions
predictions = model.predict(X_test)
print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1 Score:", f1)
Analisis Hasil
Accuracy: Akurasi model adalah sekitar 89.27%. Akurasi mengukur seberapa sering model memberikan prediksi yang
benar secara keseluruhan dari semua prediksi yang dilakukan.
Precision: Presisi model adalah sekitar 89.10%. Presisi mengukur seberapa banyak dari prediksi positif yang sebenarnya
benar. Ini berarti sekitar 89.10% dari kelas yang diprediksi sebagai positif oleh model benar-benar positif.
Recall: Recall atau recall rate adalah sekitar 89.27%. Recall mengukur seberapa banyak dari kelas positif yang sebenarnya
telah diidentifikasi dengan benar oleh model. Dalam konteks ini, sekitar 89.27% dari kelas positif yang sebenarnya telah
diidentifikasi dengan benar oleh model.
F1 Score: F1 score adalah sekitar 88.74%. F1 score adalah harmonic mean dari precision dan recall. Ini memberikan
indikasi keseluruhan kinerja model, terutama ketika ada kelas yang tidak seimbang. Semakin tinggi F1 score, semakin baik
keseimbangan antara presisi dan recall.
*Apabila ada jawaban yang sama dengan yang lain maka dapat 50%