0% menganggap dokumen ini bermanfaat (0 suara)
1 tayangan

RG - Unsupervised Learning

Dokumen ini menjelaskan tentang unsupervised learning, khususnya teknik clustering dan algoritma K-Means. Clustering digunakan untuk mengelompokkan data berdasarkan kesamaan karakteristik, dengan contoh aplikasi di sektor perbankan dan rekomendasi Netflix. Selain itu, metode evaluasi seperti Elbow Method dan Silhouette Score juga dibahas untuk menentukan jumlah cluster yang optimal.

Diunggah oleh

teguhteja
Hak Cipta
© Public Domain
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
1 tayangan

RG - Unsupervised Learning

Dokumen ini menjelaskan tentang unsupervised learning, khususnya teknik clustering dan algoritma K-Means. Clustering digunakan untuk mengelompokkan data berdasarkan kesamaan karakteristik, dengan contoh aplikasi di sektor perbankan dan rekomendasi Netflix. Selain itu, metode evaluasi seperti Elbow Method dan Silhouette Score juga dibahas untuk menentukan jumlah cluster yang optimal.

Diunggah oleh

teguhteja
Hak Cipta
© Public Domain
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 34

Muhammad Fahmi

● Data Scientist at NoLimit Indonesia


● Instructor, Trainer & Mentor Data Science

Has experience focusing on AI, Machine Learning,


Natural Language Processing & Data Mining.

https://www.linkedin.com/in/muhammad-fahmi17/
Reminder :
● Wajib on Camera
● Tepat waktu
● Raise Hand kalau mau bertanya atau langsung on mic
● Break / istirahat setiap 1 jam (menyesuaikan)
● On Focus
Outline :
● Unsupervised Learning
● Clustering
● K-Means Clustering
● Elbow Method
● Silhouette Score
● Hands - on
● QnA & Penutup
Unsupervised Learning
Install Python
Jenis-Jenis Unsupervised Learning
1. Clustering
Clustering adalah teknik untuk mengelompokkan data berdasarkan kesamaan karakteristik.
Misalnya, jika kita memiliki berbagai jenis buah yang bercampur, algoritma clustering akan
mengelompokkan buah-buah yang serupa berdasarkan ukuran, warna, atau bentuknya.
2. Anomaly Detection
Anomaly detection digunakan untuk mendeteksi data yang tidak biasa atau mencurigakan.
Contohnya, perusahaan kartu kredit menggunakan metode ini untuk mengidentifikasi
transaksi yang mencurigakan dan berpotensi sebagai penipuan.
3. Dimensionality Reduction
Dimensionality reduction bertujuan untuk mengurangi jumlah fitur dalam data tanpa
kehilangan informasi penting. Misalnya, seperti mengkompres file agar ukurannya lebih kecil
tetapi tetap mempertahankan informasi utama. Dalam machine learning, ini membantu
mempercepat proses pelatihan model.
Apa itu Unsupervised Learning?
Di unsupervised learning, hanya input data yang disediakan dalam dataset.
Tidak ada keluaran berlabel untuk dituju. Tetapi mengetahui bahwa masih
mungkin untuk menemukan banyak pola menarik dan kompleks yang
tersembunyi di dalam data tanpa label apa pun. Tujuannya adalah untuk
menangkap struktur / informasi yang menarik.
Unsupervised Learning Algorithms
Clustering
Install Python
Apa itu Clustering?
Clustering adalah tugas membagi data points ke dalam beberapa kelompok sedemikian
rupa sehingga data points dalam kelompok yang sama lebih mirip dengan data points lain
di kelompok yang sama daripada yang ada di kelompok lain. Tujuannya adalah untuk
memisahkan kelompok-kelompok dengan sifat-sifat yang sama dan menetapkannya ke
dalam kelompok-kelompok.
Kenapa menggunakan Clustering?
Clustering sangat bagus untuk menganalisa

1. Kebiasaan dan karakteristik konsumen


2. Memberikan solusi marketing dalam penjualan pada setiap
konsumen
3. Solusi marketing bisa berupa : diskon, paket item untuk dibeli
konsumen, dll
Contoh Clustering
● Netflix:
Aplikasi algoritma pengelompokan yang terkenal adalah sistem rekomendasi Netflix.
Dipastikan ada sekitar 2.000 cluster yang memiliki selera audiovisual yang sama. Cluster 290
adalah yang termasuk orang-orang yang menyukai serial "Lost", "Black Mirror" dan
"Groundhog Day". Netflix menggunakan klaster ini untuk menyempurnakan pengetahuannya
tentang selera pemirsa dan dengan demikian membuat keputusan yang lebih baik dalam
pembuatan serial original baru.
● Banking Sector: Klasifikasi umum digunakan di sektor keuangan. Di era transaksi online di
mana penggunaan uang tunai telah menurun tajam, perlu untuk menentukan apakah
pergerakan yang dilakukan melalui kartu aman. Entitas dapat mengklasifikasikan transaksi
sebagai benar atau curang menggunakan data historis tentang perilaku pelanggan untuk
mendeteksi penipuan dengan sangat akurat.
Contoh Clustering
Tantangan dari Unsupervised Learning
1. Masalahnya cenderung lebih subjektif, dan tidak ada
tujuan sederhana untuk analisis
2. Unsupervised learning sering dilakukan sebagai bagian
dari analisis data eksplorasi.
3. In unsupervised learning, tidak ada cara untuk
memeriksa hasil karena kita tidak tahu jawaban yang
benar
Model Clustering
1. K-Means: Penjelasan: K-Means adalah algoritma klustering yang
membagi data menjadi k kelompok berdasarkan nilai rata-rata
pusat kluster (centroid).
2. Agglomerative Clustering: Penjelasan: Algoritma klustering hierarkis
yang membangun hirarki kluster dengan menggabungkan kluster
secara berurutan.
3. DBSCAN (Density-Based Spatial Clustering of Applications with
Noise): Penjelasan: DBSCAN mengidentifikasi kluster berdasarkan
kepadatan data, memisahkan kluster dari noise dan mendeteksi
kluster dengan bentuk yang lebih kompleks.
4. Model lainnya yang tersedia di sklearn :
https://scikit-learn.org/stable/modules/clustering.html
K-Means
Install Clustering
Python
K Means
gambaran:
Ilustrasi K-Means
Kita ingin tiga cluster, jadi tiga pusat dipilih
secara acak. Titik data diwarnai sesuai dengan
pusat terdekat.

Nilai K = 3
Ilustrasi K-Means
Setiap pusat kemudian diperbarui...
...menggunakan rata-rata dari semua titik yang
ditetapkan ke cluster itu.
Ilustrasi K-Means
Titik data diwarnai (lagi) sesuai dengan pusat
terdekat.
Ilustrasi K-Means
hitung ulang semua pusat cluster
Ilustrasi K-Means
Setelah mengulangi langkah-langkah ini untuk beberapa
iterasi lagi... Pusat-pusat berkumpul menjadi solusi yang
stabil! Pusat-pusat ini menentukan kelompok akhir.
Elbow
Install Method
Python
How to choose the best K?
● Tidak ada cara "mudah" untuk memilih 'K' terbaik
● Kita bisa menggunakan elbow method untuk
menghitungnya
Elbow Method
Metode Elbow (Elbow Method)
adalah suatu pendekatan grafis
yang digunakan dalam analisis
clustering untuk menentukan
jumlah cluster yang optimal dalam
suatu dataset. Tujuan dari metode
ini adalah untuk menemukan titik di
mana penambahan jumlah klaster
tidak memberikan peningkatan
signifikan dalam penjelasan varians
data.

Tetapi, kembali ke Business


Understanding, Jika kamu ingin
mengelompokkan 3 kelompok,
maka jumlah cluster nya adalah 3.
Gimana, Evaluasi Clustering ?
● Metrics Classification memakai Accuracy
● Metrics Regression memakai R2 Score / MAE

Ada yang tahu Clustering


Pakai Metrics apa ?
Silhouette Score
Install Python
Silhouette Score
Skor Silhouette (Silhouette Score) adalah metric evaluasi yang
digunakan untuk mengukur seberapa baik suatu objek
ditempatkan dalam kluster, dan seberapa jauh cluster satu dari
cluster lainnya dalam suatu model clustering.

Skor Silhouette berkisar antara -1 hingga 1, di mana nilai yang lebih


tinggi menunjukkan klustering yang lebih baik.
Hands on
Install Python
Copy in drive Notebook berikut ini :
https://colab.research.google.com/drive/1Wd1JngSnlZw-qJBP
ClI-y_VlR0Lpgns7?usp=sharing
QnA
Install Python
https://app.sli.do/event/rrju8ULq1XaViqPSC3U9VZ
Challenge Clustering !
Lakukan analisis Clustering dengan Data berikut:

Install Python
https://drive.google.com/file/d/173B2aaRtv9ekO-4suLD8h2zS7Lrkct_8/view?us
p=drive_link
Feedback
Install Python
http://bit.ly/FeedbackBootcampAI-Batch6
See u Next Python
Install Session

Anda mungkin juga menyukai