Big Data & Machine Learning
Big Data & Machine Learning
Machine Learning
Disusun Oleh :
Alya Safitri 101210079
Rizqi Mau’ida 101210088
Integrasi Big Data dalam
Machine Learning
Big data adalah kumpulan data yang sangat besar,
kompleks, dan terus berkembang dengan cepat.
Data ini berasal dari berbagai sumber, seperti media
sosial, sensor, transaksi, dan lain-lain. Machine
learning adalah cabang ilmu komputer yang
memungkinkan sistem komputer belajar dari data
tanpa diprogram secara eksplisit.
Integrasi big data dalam machine learning adalah
proses menggabungkan kekuatan kedua teknologi
ini untuk menghasilkan wawasan yang lebih
mendalam dan membuat prediksi yang lebih akurat.
Dengan kata lain, big data memberikan "bahan
bakar" bagi algoritma machine learning untuk
belajar dan berkembang.
Manfaat Integrasi Big Data dalam Machine
Learning
Peningkatan akurasi prediksi: Semakin banyak data yang tersedia,
semakin baik model machine learning dapat mempelajari pola dan
tren yang kompleks.
Pengembangan produk dan layanan yang lebih baik: Dengan
memahami preferensi pelanggan dan perilaku pasar secara lebih
mendalam, perusahaan dapat mengembangkan produk dan layanan
yang lebih sesuai dengan kebutuhan konsumen.
Pengambilan keputusan yang lebih baik: Data yang besar dan
terstruktur memungkinkan perusahaan untuk membuat keputusan
bisnis yang lebih informatif dan strategis.
Deteksi anomali dan fraud: Model machine learning dapat dilatih
untuk mengidentifikasi pola yang tidak biasa, yang dapat
mengindikasikan adanya aktivitas yang mencurigakan.
Personalisasi: Dengan menganalisis data pengguna secara individual,
perusahaan dapat memberikan pengalaman yang lebih personal dan
relevan.
Tantangan dalam Integrasi Big Data
dalam Machine Learning
Volume data: Mengelola dan memproses data dalam skala besar
membutuhkan infrastruktur yang kuat dan efisien.
Variasi data: Data yang berasal dari berbagai sumber seringkali
memiliki format yang berbeda-beda, sehingga perlu dilakukan
pembersihan dan transformasi data.
Velocity data: Data terus mengalir dengan cepat, sehingga diperlukan
sistem yang dapat memproses data secara real-time.
Veracity data: Kualitas data sangat penting untuk mendapatkan hasil
yang akurat. Data yang tidak bersih atau tidak akurat dapat
menghasilkan model yang bias.
Kompetensi sumber daya manusia: Membutuhkan tenaga ahli dalam
bidang big data dan machine learning untuk merancang, membangun,
dan mengelola sistem.
Model dan Algoritma Dalam
Machine Learning
Model machine learning dibagi menjadi tiga kategori utama:
1. Data Berlabel
Pada supervised learning, data yang digunakan untuk
melatih model sudah memiliki label atau output yang
diketahui.
Label ini adalah jawaban yang benar yang ingin diprediksi
oleh model, misalnya prediksi kelas atau nilai.
Contoh: Dalam dataset tentang kelulusan siswa, labelnya
bisa berupa apakah siswa tersebut lulus atau tidak (0 =
Tidak Lulus, 1 = Lulus).
2. Tujuan Prediksi
Tujuan utama dari supervised learning adalah untuk
mempelajari hubungan antara input (fitur) dan output (label)
agar model dapat memprediksi output yang benar
berdasarkan data baru.
Supervised learning terbagi menjadi dua jenis:
Klasifikasi: Memprediksi kategori atau kelas (misalnya,
apakah email termasuk spam atau bukan).
Regresi: Memprediksi nilai kontinu (misalnya, prediksi
harga rumah).
3. Proses Pelatihan
Model dilatih dengan menggunakan dataset berlabel yang
sudah ada.
Selama pelatihan, model belajar untuk mengoptimalkan
parameter yang memungkinkan untuk memetakan input ke
output yang benar dengan menggunakan algoritma
tertentu.
Misalnya, dalam regresi linear, model akan mencoba
menemukan garis lurus yang paling cocok untuk
memetakan input ke output.
4. Fitur dan Label
Fitur (Input) adalah data yang digunakan untuk memprediksi label.
Dalam klasifikasi kelulusan, fitur bisa berupa jumlah jam belajar,
kegiatan tambahan, dll.
Label (Output) adalah hasil atau prediksi yang diinginkan dari
model, misalnya status kelulusan.
5. Evaluasi Model
Setelah model dilatih, evaluasi dilakukan untuk mengukur seberapa baik model
memprediksi label pada data yang tidak dilihat sebelumnya (data uji).
Metode evaluasi bergantung pada jenis masalah, seperti:
Akurasi, Precision, Recall, F1-Score (untuk klasifikasi).
Mean Absolute Error (MAE), Mean Squared Error (MSE) (untuk regresi).
3. Jenis Masalah
Klasterisasi (Clustering): Mengelompokkan data yang memiliki kemiripan yang
tinggi dalam satu grup.
Contoh Algoritma: K-means, DBSCAN, Hierarchical Clustering.
Reduksi Dimensi (Dimensionality Reduction): Mengurangi jumlah variabel
dalam data untuk membuat model lebih sederhana dan mudah dianalisis, tanpa
kehilangan banyak informasi penting.
Contoh Algoritma: Principal Component Analysis (PCA), t-SNE.
Anomali Deteksi: Menemukan data yang tidak biasa atau anomali yang berbeda
dari sebagian besar data lainnya.
Contoh Algoritma: Isolation Forest, One-Class SVM.
Karakteristik utama dari algoritma
Unsupervised Learning:
1. Berbasis Interaksi
• Agen RL belajar dengan berinteraksi dengan
lingkungan, yang artinya agen terus-menerus
mengamati kondisi lingkungan, mengambil tindakan,
dan menerima umpan balik dalam bentuk penghargaan
atau penalti.
• Lingkungan: Ruang atau kondisi tempat agen
beroperasi, di mana agen dapat mempengaruhi
keadaan lingkungan melalui tindakannya.
• Agen: Entitas yang membuat keputusan dan
melakukan tindakan berdasarkan kondisi lingkungan.
Karakteristik utama dari Reinforcement
Learning: