0% menganggap dokumen ini bermanfaat (0 suara)
265 tayangan25 halaman

Big Data & Machine Learning

Dokumen ini membahas integrasi Big Data dalam Machine Learning, menjelaskan manfaat seperti peningkatan akurasi prediksi dan pengambilan keputusan yang lebih baik, serta tantangan yang dihadapi seperti volume dan kualitas data. Selain itu, dokumen ini merinci kategori model Machine Learning yaitu Supervised, Unsupervised, dan Reinforcement Learning, beserta karakteristik, algoritma, keuntungan, dan kekurangan masing-masing. Keseluruhan, dokumen ini memberikan pemahaman mendalam tentang bagaimana Big Data dan Machine Learning saling melengkapi dan tantangan yang perlu diatasi dalam implementasinya.

Diunggah oleh

heru
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
265 tayangan25 halaman

Big Data & Machine Learning

Dokumen ini membahas integrasi Big Data dalam Machine Learning, menjelaskan manfaat seperti peningkatan akurasi prediksi dan pengambilan keputusan yang lebih baik, serta tantangan yang dihadapi seperti volume dan kualitas data. Selain itu, dokumen ini merinci kategori model Machine Learning yaitu Supervised, Unsupervised, dan Reinforcement Learning, beserta karakteristik, algoritma, keuntungan, dan kekurangan masing-masing. Keseluruhan, dokumen ini memberikan pemahaman mendalam tentang bagaimana Big Data dan Machine Learning saling melengkapi dan tantangan yang perlu diatasi dalam implementasinya.

Diunggah oleh

heru
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 25

Big Data dan

Machine Learning
Disusun Oleh :
Alya Safitri 101210079
Rizqi Mau’ida 101210088
Integrasi Big Data dalam
Machine Learning
Big data adalah kumpulan data yang sangat besar,
kompleks, dan terus berkembang dengan cepat.
Data ini berasal dari berbagai sumber, seperti media
sosial, sensor, transaksi, dan lain-lain. Machine
learning adalah cabang ilmu komputer yang
memungkinkan sistem komputer belajar dari data
tanpa diprogram secara eksplisit.
Integrasi big data dalam machine learning adalah
proses menggabungkan kekuatan kedua teknologi
ini untuk menghasilkan wawasan yang lebih
mendalam dan membuat prediksi yang lebih akurat.
Dengan kata lain, big data memberikan "bahan
bakar" bagi algoritma machine learning untuk
belajar dan berkembang.
Manfaat Integrasi Big Data dalam Machine
Learning
Peningkatan akurasi prediksi: Semakin banyak data yang tersedia,
semakin baik model machine learning dapat mempelajari pola dan
tren yang kompleks.
Pengembangan produk dan layanan yang lebih baik: Dengan
memahami preferensi pelanggan dan perilaku pasar secara lebih
mendalam, perusahaan dapat mengembangkan produk dan layanan
yang lebih sesuai dengan kebutuhan konsumen.
Pengambilan keputusan yang lebih baik: Data yang besar dan
terstruktur memungkinkan perusahaan untuk membuat keputusan
bisnis yang lebih informatif dan strategis.
Deteksi anomali dan fraud: Model machine learning dapat dilatih
untuk mengidentifikasi pola yang tidak biasa, yang dapat
mengindikasikan adanya aktivitas yang mencurigakan.
Personalisasi: Dengan menganalisis data pengguna secara individual,
perusahaan dapat memberikan pengalaman yang lebih personal dan
relevan.
Tantangan dalam Integrasi Big Data
dalam Machine Learning
Volume data: Mengelola dan memproses data dalam skala besar
membutuhkan infrastruktur yang kuat dan efisien.
Variasi data: Data yang berasal dari berbagai sumber seringkali
memiliki format yang berbeda-beda, sehingga perlu dilakukan
pembersihan dan transformasi data.
Velocity data: Data terus mengalir dengan cepat, sehingga diperlukan
sistem yang dapat memproses data secara real-time.
Veracity data: Kualitas data sangat penting untuk mendapatkan hasil
yang akurat. Data yang tidak bersih atau tidak akurat dapat
menghasilkan model yang bias.
Kompetensi sumber daya manusia: Membutuhkan tenaga ahli dalam
bidang big data dan machine learning untuk merancang, membangun,
dan mengelola sistem.
Model dan Algoritma Dalam
Machine Learning
Model machine learning dibagi menjadi tiga kategori utama:

1. Supervised Learning: Model dilatih menggunakan data yang


sudah memiliki label atau output yang diketahui. misalnya,
klasifikasi gambar, prediksi harga rumah
Contoh Algoritma:

• Regresi Linear: Digunakan untuk memprediksi nilai kontinu,


seperti memprediksi harga rumah berdasarkan ukuran dan
lokasi.

• K-Nearest Neighbors (K-NN): Algoritma yang


mengklasifikasikan data berdasarkan jarak terdekat dengan
data lain.

• Support Vector Machine (SVM): Algoritma yang memisahkan


data ke dalam kelas yang berbeda menggunakan hyperplane
optimal.
Model machine learning dibagi menjadi tiga kategori
utama:

2. Unsupervised Learning: Model dilatih menggunakan data


yang tidak memiliki label, bertujuan untuk menemukan pola
tersembunyi. misalnya, pengelompokan pelanggan, deteksi
anomali.
Contoh Algoritma:

• K-Means Clustering: Mengelompokkan data ke dalam


beberapa cluster berdasarkan kesamaan.

• Principal Component Analysis (PCA): Teknik untuk


mengurangi dimensi data sambil mempertahankan informasi
penting.

• Hierarchical Clustering: Mengelompokkan data ke dalam


struktur hirarki, dari grup yang lebih kecil ke yang lebih
Model machine learning dibagi menjadi tiga kategori
utama:

3. Reinforcement Learning: Model belajar melalui interaksi


dengan lingkungan dan menerima feedback berupa reward
(penghargaan) atau penalty (hukuman).
Contoh Aplikasi:

• Robotika: Robot belajar bagaimana bergerak atau


menyelesaikan tugas dengan efisien.

• Game AI: Algoritma yang mengoptimalkan strategi bermain


untuk memenangkan permainan, seperti AlphaGo.
Supervised Learning adalah salah satu jenis algoritma
dalam machine learning di mana model dilatih
menggunakan data yang sudah memiliki label atau target
yang diketahui. Karakteristik utama dari Supervised
Learning antara lain:

1. Data Berlabel
Pada supervised learning, data yang digunakan untuk
melatih model sudah memiliki label atau output yang
diketahui.
Label ini adalah jawaban yang benar yang ingin diprediksi
oleh model, misalnya prediksi kelas atau nilai.
Contoh: Dalam dataset tentang kelulusan siswa, labelnya
bisa berupa apakah siswa tersebut lulus atau tidak (0 =
Tidak Lulus, 1 = Lulus).
2. Tujuan Prediksi
Tujuan utama dari supervised learning adalah untuk
mempelajari hubungan antara input (fitur) dan output (label)
agar model dapat memprediksi output yang benar
berdasarkan data baru.
Supervised learning terbagi menjadi dua jenis:
Klasifikasi: Memprediksi kategori atau kelas (misalnya,
apakah email termasuk spam atau bukan).
Regresi: Memprediksi nilai kontinu (misalnya, prediksi
harga rumah).
3. Proses Pelatihan
Model dilatih dengan menggunakan dataset berlabel yang
sudah ada.
Selama pelatihan, model belajar untuk mengoptimalkan
parameter yang memungkinkan untuk memetakan input ke
output yang benar dengan menggunakan algoritma
tertentu.
Misalnya, dalam regresi linear, model akan mencoba
menemukan garis lurus yang paling cocok untuk
memetakan input ke output.
4. Fitur dan Label
Fitur (Input) adalah data yang digunakan untuk memprediksi label.
Dalam klasifikasi kelulusan, fitur bisa berupa jumlah jam belajar,
kegiatan tambahan, dll.
Label (Output) adalah hasil atau prediksi yang diinginkan dari
model, misalnya status kelulusan.
5. Evaluasi Model
Setelah model dilatih, evaluasi dilakukan untuk mengukur seberapa baik model
memprediksi label pada data yang tidak dilihat sebelumnya (data uji).
Metode evaluasi bergantung pada jenis masalah, seperti:
Akurasi, Precision, Recall, F1-Score (untuk klasifikasi).
Mean Absolute Error (MAE), Mean Squared Error (MSE) (untuk regresi).

6. Contoh Algoritma Supervised Learning


• K-Nearest Neighbors (K-NN): Digunakan baik untuk klasifikasi maupun
regresi, dengan menggunakan tetangga terdekat untuk menentukan output.
• Regresi Linear: Digunakan untuk masalah regresi, di mana model mencoba
menemukan hubungan linear antara fitur dan label.
• Decision Trees: Algoritma yang membuat keputusan berdasarkan fitur dan
membangun pohon keputusan untuk klasifikasi atau regresi.
• Support Vector Machines (SVM): Digunakan untuk klasifikasi, di mana
model mencoba mencari garis pemisah terbaik yang memisahkan kelas-kelas
yang berbeda.
7. Keuntungan Supervised Learning
Akurat dan dapat dipahami: Karena model dilatih dengan data berlabel yang
jelas, hasilnya lebih mudah dipahami dan dapat diandalkan.
• Fleksibel: Dapat diterapkan pada berbagai jenis masalah, baik klasifikasi
maupun regresi.
• Mudah untuk dievaluasi: Model dapat dievaluasi dengan metrik yang jelas,
seperti akurasi untuk klasifikasi atau error untuk regresi.

8. Kekurangan Supervised Learning


• Kebutuhan data berlabel: Salah satu tantangan terbesar adalah kebutuhan
untuk memiliki data berlabel yang cukup banyak, yang kadang sulit
didapatkan.
• Keterbatasan pada pola tertentu: Model mungkin tidak bisa
menggeneralisasi dengan baik jika pola dalam data tidak cukup bervariasi atau
jika data yang digunakan tidak representatif.
Karakteristik utama dari algoritma Unsupervised
Learning:

1. Data Tanpa Label


Data yang digunakan dalam unsupervised learning tidak memiliki label atau
output yang sudah diketahui.
Model tidak diberikan informasi tentang hasil yang diinginkan atau benar. Sebagai
gantinya, model mencari pola atau struktur yang ada dalam data tersebut.
Contoh: Dalam data pelanggan, tidak ada informasi apakah pelanggan tersebut
akan membeli produk atau tidak. Model harus mencari kelompok atau segmen
pelanggan yang mirip satu sama lain.

2. Tujuan Menemukan Pola atau Struktur dalam Data


Tujuan utama dari unsupervised learning adalah untuk menemukan pola,
struktur, atau hubungan dalam data yang tidak terlihat secara langsung.
Beberapa masalah umum dalam unsupervised learning adalah klasterisasi dan
reduksi dimensi.
Klasterisasi (Clustering): Mengelompokkan data ke dalam grup yang lebih kecil
berdasarkan kemiripan antar data.
Reduksi Dimensi: Mengurangi jumlah fitur atau atribut dalam data untuk
memudahkan analisis dan visualisasi.
Karakteristik utama dari algoritma Unsupervised
Learning:

3. Jenis Masalah
Klasterisasi (Clustering): Mengelompokkan data yang memiliki kemiripan yang
tinggi dalam satu grup.
Contoh Algoritma: K-means, DBSCAN, Hierarchical Clustering.
Reduksi Dimensi (Dimensionality Reduction): Mengurangi jumlah variabel
dalam data untuk membuat model lebih sederhana dan mudah dianalisis, tanpa
kehilangan banyak informasi penting.
Contoh Algoritma: Principal Component Analysis (PCA), t-SNE.
Anomali Deteksi: Menemukan data yang tidak biasa atau anomali yang berbeda
dari sebagian besar data lainnya.
Contoh Algoritma: Isolation Forest, One-Class SVM.
Karakteristik utama dari algoritma
Unsupervised Learning:

4. Fitur dan Representasi Data


Dalam unsupervised learning, data tidak memiliki label yang
menunjukkan hubungan dengan fitur atau kategori yang spesifik.
Model berfokus pada menemukan keterkaitan dan struktur dalam
fitur yang ada, bukan pada prediksi label.
Contoh: Misalnya, dalam klasterisasi pelanggan, model akan
mencoba mengelompokkan pelanggan berdasarkan fitur-fitur seperti
usia, pengeluaran, dan frekuensi pembelian tanpa mengetahui
sebelumnya apakah pelanggan tersebut sering membeli produk
tertentu atau tidak.
Karakteristik utama dari algoritma Unsupervised Learning:

5. Keuntungan Unsupervised Learning


• Tidak Memerlukan Data Berlabel: Unsupervised learning tidak memerlukan data
berlabel, yang bisa sangat berguna ketika label data sulit atau mahal untuk
didapatkan.
• Mencari Pola Tersembunyi: Algoritma ini dapat menemukan pola atau struktur
yang tidak terduga yang mungkin tidak terlihat dalam pengamatan manusia atau
pengolahan data tradisional.
• Fleksibel untuk Banyak Jenis Data: Dapat diterapkan pada berbagai jenis data,
baik numerik, teks, gambar, atau data waktu.

8. Kekurangan Unsupervised Learning


• Evaluasi Sulit: Karena tidak ada label untuk dibandingkan, mengevaluasi kualitas
model atau hasilnya bisa sangat subjektif dan sulit.
• Interpretasi Model: Hasil yang dihasilkan oleh model unsupervised learning bisa
sulit untuk diinterpretasikan, terutama jika data atau pola yang ditemukan sangat
kompleks.
• Tidak Ada Panduan yang Jelas: Tidak ada panduan yang jelas tentang apa yang
harus dicari dalam data, jadi model bisa menjadi "overfitting" terhadap pola yang
Karakteristik utama dari Reinforcement
Learning:

1. Berbasis Interaksi
• Agen RL belajar dengan berinteraksi dengan
lingkungan, yang artinya agen terus-menerus
mengamati kondisi lingkungan, mengambil tindakan,
dan menerima umpan balik dalam bentuk penghargaan
atau penalti.
• Lingkungan: Ruang atau kondisi tempat agen
beroperasi, di mana agen dapat mempengaruhi
keadaan lingkungan melalui tindakannya.
• Agen: Entitas yang membuat keputusan dan
melakukan tindakan berdasarkan kondisi lingkungan.
Karakteristik utama dari Reinforcement
Learning:

2. Pendekatan Berbasis Penghargaan (Reward)


• Agen menerima reward (penghargaan) atau
penalty (hukuman) berdasarkan tindakan yang
diambil. Tujuan agen adalah memaksimalkan total
reward yang diperoleh dalam jangka panjang.
• Positive Reward: Agen didorong untuk mengambil
tindakan tertentu yang menghasilkan hasil yang
menguntungkan.
• Negative Reward (Penalti): Agen didorong untuk
menghindari tindakan yang mengarah ke hasil yang
tidak diinginkan.
• Reward Function: Fungsi yang menentukan reward
yang diterima agen berdasarkan tindakan dan kondisi
lingkungan.
Karakteristik utama dari Reinforcement
Learning:

3. Proses Belajar Melalui Eksplorasi dan Eksploitasi


• Eksplorasi (Exploration): Agen mencoba tindakan
baru untuk mempelajari lingkungan dan menemukan
strategi yang lebih baik.
• Eksploitasi (Exploitation): Agen menggunakan
pengetahuan yang sudah dipelajari untuk mengambil
tindakan yang menghasilkan reward maksimum.
• Tantangan dalam RL adalah menemukan keseimbangan
antara eksplorasi dan eksploitasi agar agen dapat
belajar secara efektif.
Karakteristik utama dari Reinforcement
Learning:

4. Menggunakan Konsep Markov Decision Process


(MDP)
Banyak algoritma RL menggunakan model Markov
Decision Process (MDP), yang terdiri dari:
• State (S): Kondisi atau situasi lingkungan saat ini
yang diamati oleh agen.
• Action (A): Tindakan yang dapat diambil oleh
agen dari state tertentu.
• Reward (R): Penghargaan yang diterima setelah
mengambil tindakan.
• Policy (π): Strategi atau aturan yang digunakan
agen untuk memilih tindakan berdasarkan state.
• Transition Probability: Probabilitas berpindah
dari satu state ke state lain setelah melakukan
suatu tindakan.
Karakteristik utama dari Reinforcement Learning:

5. Belajar dari Trial and Error


• Proses belajar dalam RL didasarkan pada trial and error. Agen
mencoba berbagai tindakan untuk melihat hasil yang didapat, lalu
memperbarui strateginya berdasarkan pengalaman.
• Agen akan terus-menerus mengadaptasi dan meningkatkan
strateginya untuk memaksimalkan reward.

6. Strategi dan Fungsi Nilai (Value Function)


• Policy (π): Menggambarkan bagaimana agen memilih tindakan dari
setiap state. Policy bisa berupa deterministik (satu tindakan spesifik
untuk setiap state) atau stokastik (mengambil tindakan dengan
probabilitas tertentu).
• Value Function: Mengukur seberapa baik suatu state atau tindakan,
dalam hal reward yang diharapkan di masa depan.
• State Value (V): Reward yang diharapkan mulai dari state tertentu
dan mengikuti policy tertentu.
• Action Value (Q): Reward yang diharapkan dari mengambil tindakan
tertentu dalam state tertentu dan kemudian mengikuti policy tertentu.
Karakteristik utama dari Reinforcement Learning:

7. Keuntungan Reinforcement Learning


• Adaptif: Dapat beradaptasi dengan lingkungan yang berubah-ubah
dan menemukan strategi optimal untuk kondisi yang rumit.
• Belajar dari Pengalaman: Agen tidak memerlukan data berlabel
tetapi belajar dari hasil interaksinya dengan lingkungan.
• Dapat Menangani Masalah Kompleks: Mampu mempelajari
strategi optimal dalam lingkungan yang sangat kompleks dan tidak
terstruktur.

8. Kekurangan Reinforcement Learning


• Kompleks dan Membutuhkan Sumber Daya: RL sering
memerlukan banyak waktu dan data (trial and error) untuk melatih
agen, terutama dalam lingkungan yang rumit.
• Kesulitan dalam Menangani Reward yang Terlambat: Agen
mungkin kesulitan belajar ketika reward diberikan jauh setelah
tindakan diambil.
• Keseimbangan Eksplorasi-Eksploitasi: Menemukan keseimbangan
yang tepat antara mencoba tindakan baru dan memanfaatkan

Anda mungkin juga menyukai