0% menganggap dokumen ini bermanfaat (0 suara)
110 tayangan

Modul P12

Modul ini membahas metode Naive Bayes Classifier untuk klasifikasi dokumen di perpustakaan. Naive Bayes Classifier bekerja dengan menghitung probabilitas kelas berdasarkan atribut-atributnya dengan asumsi independensi antar atribut. Metode ini digunakan untuk mengelompokkan judul dan kategori buku di database perpustakaan agar memudahkan pencarian pengunjung. Hasil pengujian menunjukkan metode ini dapat mengklasifikasikan buku-buku tersebut dengan

Diunggah oleh

Ari Ariyanto
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
110 tayangan

Modul P12

Modul ini membahas metode Naive Bayes Classifier untuk klasifikasi dokumen di perpustakaan. Naive Bayes Classifier bekerja dengan menghitung probabilitas kelas berdasarkan atribut-atributnya dengan asumsi independensi antar atribut. Metode ini digunakan untuk mengelompokkan judul dan kategori buku di database perpustakaan agar memudahkan pencarian pengunjung. Hasil pengujian menunjukkan metode ini dapat mengklasifikasikan buku-buku tersebut dengan

Diunggah oleh

Ari Ariyanto
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 14

MODUL

MACHINE
LEARNING
(P151700003)

Naïve Bayes

Fakultas Program Studi Tatap Muka Kode MK Disusun Oleh

12
Ilmu Komputer Teknik Informatika P151700003 Indrajani, S.Kom., MM
Abstract Competencies

Naïve Bayes Classifiermerupakan • Mampu menjelaskan konsep dan


teori naïve bayes classifier
sebuah metoda klasi_kasi yang berakar
• Mampu menjelaskan penggunaan
pada teorema Bayes . Metode frekuensi relatif untuk solusi
optimasi
pengklasi_kasian dg menggunakan
• Mampu menerapkan tools yang
metode probabilitas dan statistik yg sesuai untuk menyelesaikan
dikemukakan oleh ilmuwan Inggris permasalahan naïve bayes classifier
• Mampumenjelaskan analisis hasil
Thomas Bayes , yaitu memprediksi naïve bayes classifier
peluang di masa depan berdasarkan (CPMK 1,2,3a, 4)

pengalaman di masa sebelumnya


sehingga dikenal sebagai Teorema
Bayes.

2020 Machine Learning Pusat Bahan Ajar dan eLearning


2 Indrajani S.Kom., MM http://www.mercubuana.ac.id
Pembahasan

Naïve Bayes Classifiermerupakan sebuah metoda klasi_kasi yang berakar pada teorema
Bayes . Metode pengklasi_kasian dg menggunakan metode probabilitas dan statistik yg
dikemukakan oleh ilmuwan Inggris Thomas Bayes , yaitu memprediksi peluang di masa
depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema
Bayes. Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan
independensi dari masing-masing kondisi / kejadian.

Menurut Olson Delen (2008) menjelaskan Naïve Bayes unt setiap kelas keputusan,
menghitung probabilitas dg syarat bahwa kelas keputusan adalah benar, mengingat vektor
informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen.
Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah
frekuensi dr ” master ” tabel keputusan.

Naive Bayes Classifier bekerja sangat baik dibanding dengan model Classifier lainnya. Hal
ini dibuktikan oleh Xhemali , Hinde Stone dalam jurnalnya “Naïve Bayes vs.Decision Trees
vs. Neural Networks in the Classi_cation of Training Web Pages” mengatakan bahwa “Naïve
Bayes Classifiermemiliki tingkat akurasi yg lebih baik disbanding model Classifier lainnya”.

Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan jumlah data
pelatihan ( training data ) yg kecil unt menentukan estimasi parameter yg diperlukan
dalam proses pengklasi_kasian. Karena yg diasumsikan sebagai variable
independent, maka hanya varians dr suatu variable dalam sebuah kelas yg
dibutuhkan unt menentukan klasi_kasi, bukan keseluruhan dr matriks kovarians.

Kegunaan Naïve Bayes


• Mengklasifikasikan dokumen teks seperti teks berita ataupun teks akademis
• Sebagai metode machine learning yang menggunakan probabilitas
• Untuk membuat diagnosis medis secara otomatis
• Mendeteksi atau menyaring spam

2020 Machine Learning Pusat Bahan Ajar dan eLearning


3 Indrajani S.Kom., MM http://www.mercubuana.ac.id
Kelebihan Naïve Bayes
• Bisa dipakai untuk data kuantitatif maupun kualitatif
• Tidak memerlukan jumlah data yang banyak
• Tidak perlu melakukan data training yang banyak
• Jika ada nilai yang hilang, maka bisa diabaikan dalam perhitungan.
• Perhitungannya cepat dan efisien
• Mudah dipahami
• Jika digunakan dalaam bahasa pemrograman, code-nya sederhana
• Bisa digunakan untuk klasi_kasi masalah biner ataupun multiclass

Kekurangan Naïve Bayes


• Apabila probabilitas kondisionalnya bernilai nol, maka probabilitas prediksi juga akan
bernilai nol
• Asumsi bahwa masing-masing variabel independen membuat berkurangnya akurasi,
karena biasanya ada korelasi antara variabel yang satu dengan variabel yang lain
• Keakuratannya tidak bisa diukur menggunakan satu probabilitas saja. Butuh bukti-bukti
lain untuk membuktikannya.
• Untuk membuat keputusan, diperlukan pengetahuan awal atau pengetahuan mengenai
masa sebelumnya. Keberhasilannya sangat bergantung pada pengetahuan awal tersebut
Banyak celah yang bisa mengurangi efektivitasnya
• Dirancang untuk mendeteksi kata-kata saja, tidak bisa berupa gambar

2020 Machine Learning Pusat Bahan Ajar dan eLearning


4 Indrajani S.Kom., MM http://www.mercubuana.ac.id
Contoh Case :

TEKNIK DATA MINING MENGGUNAKAN METODE BAYES CLASSIFIER UNTUK


OPTIMALISASI PENCARIAN
PADA APLIKASI PERPUSTAKAAN
(STUDI KASUS : PERPUSTAKAAN UNIVERSITAS PASUNDAN – BANDUNG)
Oleh :
Selvia Lorena Br Ginting, Reggy Pasya Trinanda
Abstrak

Data mining merupakan serangkaian proses untuk menggali nilai tambah berupa informasi
yang selama ini tidak diketahui secara manual dari suatu basis data. Salah satu metode data
mining adalah klasifikasi yaitu proses pencarian model klasifikasi yang dapat membedakan
objek label kelasnya. Naïve Bayes Classifier adalah salah satu teknik yang dapat dipakai
untuk membangun model klasifikasi. Pada penelitian ini metode Naïve Bayes Classifier
diterapkan sebagai teknik yang membangun model klasifikasi (pengelompokan) dari
dokumen-dokumen yang ada di sebuah perpustakaan. Perpustakaan merupakan tempat
dimana pengunjung memperoleh akses terhadap informasi dan pengetahuan. Mengingat
banyaknya data buku yang dimiliki perpustakaan, pengelompokan dokumen sangat perlu
dilakukan. Oleh karena itu sangat diperlukan sebuah perangkat lunak yang handal untuk
mengatasi pengelompokan dokumen tersebut, demi terciptanya kenyamanan pencarian data
buku yang dilakukan oleh pengunjung. Cara kerja dari metoda lunak Naïve Bayes Classifier
menghitung peluang dari satu kelas dari masing-masing kelompok atribut yang ada dan
menentukan kelas mana yang paling optimal, artinya pengelompokan dapat dilakukan
berdasarkan kategori yang pengguna masukkan pada perangkat lunak. Hasil pengujian
diperoleh Naïve Bayes Classifier mengklasifikasikan beberapa judul dan ketegori yang
terdapat pada database perpustakaan kemudian pencarian akan dilanjutkan lebih mendalam
dengan melibatkan deskripsi dari setiap buku, sehingga akan menampilkan lebih banyak
referensi sebagai hasil pencarian. Tentunya referensi tersebut berkaitan dengan kata yang di
masukkan oleh pengunjung pada mesin pencarian di aplikasi perpustakaan tersebut. Dengan
demikian diharapkan dapat membantu pengunjung dengan memperoleh peluang yang lebih
besar dalam pencarian buku yang diinginkan.

1. Pendahuluan
Saat ini, kemajuan teknologi di bidang basis data masa kini semakin meningkat. Kemajuan
teknologi ini memungkinan suatu perusahaan atau organisasi mengumpulkan data dari
2020 Machine Learning Pusat Bahan Ajar dan eLearning
5 Indrajani S.Kom., MM http://www.mercubuana.ac.id
berbagai sumber dengan mudah dan cepat, sehingga membuat volume data menjadi semakin
besar dan terus bertambah. Semakin besarnya volume data yang ada menimbulkan masalah
dalam pengklasifikasian atau pengelompokannya. Data yang tersebar tanpa dikelompokkan
dengan aturan tertentu tentunya akan memperlambat proses pencarian. Untuk data skala kecil
tentunya tidak ada masalah yang signifikan dalam proses pencarian, namun untuk data skala
besar sangat dibutuhkan kecepatan dalam proses pencarian data, sehingga dibutuhkan
pengelompokan data terlebih dahulu.
Naïve Bayes Classifier merupakan merupakan salah satu metoda di dalam data mining untuk
mengklasifikasikan data. Cara kerja dari metode Naïve Bayes Classfier menggunakan
perhitungan probabilitas. Konsep dasar yang digunakan oleh Naïve bayes adalah Teorema
Bayes, yaitu teorema yang digunakan dalam statistika untuk menghitung suatu peluang,
Bayes Optimal Classifier menghitung peluang dari satu kelas dari masing-masing kelompok
atribut yang ada, dan menentukan kelas mana yang paling optimal. Proses pengelompokan
atau klasifikasi dibagi menjadi dua fase yaitu learning/training dan testing/classify. Pada fase
learning, sebagian data yang telah diketahui kelas, datanya diumpankan untuk membentuk
model perkiraan. Kemudian pada fase testing, model yang sudah terbentuk diuji dengan
sebagian data.
Data yang digunakan di sini adalah data perpustakaan. Perpustakaan merupakan tempat yang
cukup sering dikunjungi baik hanya sekedar membaca ataupun untuk mencari referensi.
Fasilitas dan kenyamanan bagi pengunjung merupakan hal yang senantiasa perlu ditingkatkan
diantaranya mempermudah pengunjung dalam hal pencarian buku dengan memanfaatkan
software yang ada sehingga dapat membantu para pengunjung lebih cepat mengetahui daftar
buku serta tempat penyimpanan buku yang ada pada perpustakaan tersebut dengan
keakuratan pengklasifikasian dokumen yang baik. Untuk itu dibutuhkan metode Naïve Bayes
Classfier untuk klasifikasi dokumen (di sini dokumen berupa data buku yang ada di
perpustakaan) yang akan diterapkan dalam membangun perangkat lunak pencarian pada
Aplikasi Perpustakaan. Fungsinya untuk mempercepat proses pencarian data buku pada
Aplikasi Perpustakaan sehingga membantu meningkatkan pelayanan pada perpustakaan.

2020 Machine Learning Pusat Bahan Ajar dan eLearning


6 Indrajani S.Kom., MM http://www.mercubuana.ac.id
2. Dasar Teori
2.1 Data Mining

Knowledge Discovery in Database (KDD) merupakan proses pencarian pengetahuan yang


bermanfaat dari kumpulan data. Proses KDD bersifat interaktif dan iteratif, meliputi sejumlah
langkah dengan melibatkan pengguna dalam membuat keputusan dan dapat dilakukan
pengulangan di antara dua buah langkah. Data mining merupakan salah satu proses inti yang
terdapat dalam Knowledge Data Discovery (KDD). Banyak orang memperlakukan data
mining sebagai sinonim dari KDD, karena sebagian besar pekerjaan dalam KDD difokuskan
pada data mining. Namun, langkah-langkah ini merupakan proses yang penting yang
menjamin kesuksesan dari aplikasi KDD.

2.2 Naïve Bayes Classifier (NBC)


Salah satu tugas Data Mining adalah klasifikasi data, yaitu memetakan (mengklasifikasikan)
data ke dalam satu atau beberapa kelas yaang sudah didefinisikan sebelumnya. Salah satu
metoda dalam klasifikasi data adalah Naïve Bayes Classifier (NBC). Naïve Bayes Classifier
merupakan salah satu metoda machine learning yang memanfaatkan perhitungan probabilitas

2020 Machine Learning Pusat Bahan Ajar dan eLearning


7 Indrajani S.Kom., MM http://www.mercubuana.ac.id
dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi
probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya.
Dasar dari Naïve Bayes yang dipakai dalam pemrograman adalah rumus Bayes:
P (A|B) = (P(B|A) * P(A))/P(B) ................................................................ (1)
Peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A, dan peluang B.
Pada pengaplikasiannya nanti rumus ini berubah menjadi :
P(Ci|D) = (P(D|Ci)*P(Ci)) / P(D) ............................................................. (2)
Naïve Bayes Classifier atau bisa disebut sebagai Multinomial Naïve Bayes merupakan model
penyederhanaan dari Metoda Bayes yang cocok dalam pengklasifikasian teks atau dokumen.
Persamaannya adalah:
VMAP = arg max P(Vj | a1 , a2 ,.......an) ........................................................ (3)
Menurut persamaan (3), maka persamaan (1) dapat ditulis:

2020 Machine Learning Pusat Bahan Ajar dan eLearning


8 Indrajani S.Kom., MM http://www.mercubuana.ac.id
2.3 Cara Kerja Naïve Bayes Classifier
Cara kerja Naïve Bayes Classifier melalui dua tahapan, yaitu :
Learning (Pembelajaran)

Naïve Bayes adalah suatu metoda yang termasuk ke dalam supervised learning, maka akan
dibutuhkan pengetahuan awal untuk dapat mengambil keputusan. Langkah-langkah :
Step 1 : Bentuk vocabulary pada setiap dokumen data training
Step 2 : Hitung probabilitas pada setiao kategori P(vj).
Step 2 : Tentukan frekuensi setiap kata wk pada setiap kategori P(wk|vj)

Classify (Pengklasifikasian). Langkah-langkahnya adalah :


Step 1 : Hitung P(vj)Π P(wk | vj) untuk setiap kategori.
Step 2 : Tentukan kategori dengan nilai P(vj)Π P(wk | vj) maksimal.

2020 Machine Learning Pusat Bahan Ajar dan eLearning


9 Indrajani S.Kom., MM http://www.mercubuana.ac.id
3. Analisis, Perancangan, Implementasi dan Pengujian Sistem
Pencarian data buku pada Aplikasi Perpustakaan dapat dilakukan berdasarkan judul,
pengarang, maupun kata kunci (keyword). Pada umumnya hasil pencarian hanya berupa buku
yang memiliki judul, pengarang maupun kata kunci (keyword) yang sesuai dengan kata atau
kalimat yang di ketik oleh user saja, buku-buku yang memiliki makna sejenis dengan kata
yang dicari, namun tidak mengandung kata tersebut pada keyword yang diketikkan oleh user,
tidak akan ditampilkan pada hasil pencarian.
Pada aplikasi ini pencarian akan dilakukan lebih mendalam, sampai kepada deskripsi dari
buku-buku tersebut dan akan dilakukan pengklasifikasian dengan menggunakan metoda
Naïve Bayes Clasiffier (NBC) sehingga akan mendapatkan hasil yang lebih optimal
dikarenakan user mendapatkan referensi buku yang lebih banyak.

2020 Machine Learning Pusat Bahan Ajar dan eLearning


10 Indrajani S.Kom., MM http://www.mercubuana.ac.id
Pada proses pencarian dengan menggunakan metoda Naïve Bayes Classifier akan melalui dua
tahap, yaitu proses learning dan proses classifier. Dimana proses learning akan membentuk
vocabulary pada setiap dokumen data training, yaitu berupa kamus kata dasar yang nantinya
akan menjadi perbandingan antara satu kata dengan kata yang lainnya. Kemudian proses
learning akan menghitung probabilitas pada setiap kategori dan menentukan frekuensi dari
setiap kata yang muncul pada setiap kategori tersebut untuk nantinya diklasifikasikan.
Sedangkan pada proses classifier, langkahnya yaitu menghitung probabilitas pada setiap
dokumen terhadap sekumpulan dokumen dan kemudian menentukan probabilitas kemunculan
kata yang terbesar pada suatu dokumen dengan kategori class tersebut. Sehingga kata yang
memiliki presentasi terbesarlah yang akan di munculkan pada hasil pencarian.
Data Output yang diharapkan yang akan diperoleh oleh user dari aplikasi pencarian
menggunakan metoda Naïve Bayes classifier ini adalah berupa hasil

2020 Machine Learning Pusat Bahan Ajar dan eLearning


11 Indrajani S.Kom., MM http://www.mercubuana.ac.id
pencarian yang diinginkan oleh user itu sendiri dengan menampilkan kombinasi kolom judul,
kategori, pengarang, deskripsi, serta tempat buku tersebut disimpan.

2020 Machine Learning Pusat Bahan Ajar dan eLearning


12 Indrajani S.Kom., MM http://www.mercubuana.ac.id
Berdasarkan flowchart tersebut, apabila yang mengakses perangkat lunak adalah seorang
admin maka akses yang dapat dilakukan adalah cek database, edit database menambah buku
baik secara manual maupun melalui excel serta dapat menampilkan database. Namun apabila
yang mengakses adalah user perpustakaan, maka hanya bisa mencari buku yang ingin dicari
dengan cara memasukkan kriteria pada kolom yang telah disediakan dan akan memperoleh
hasilnya.

2020 Machine Learning Pusat Bahan Ajar dan eLearning


13 Indrajani S.Kom., MM http://www.mercubuana.ac.id
Bibliography
1] S. Shalev-Shwartz dan S. Ben-David, Understanding machine learning: From theory to
algorithms, vol. 9781107057. 2014.
[2] A. C. Muller dan S. Guido, Introduction to Machine Learning with Python. California: O’
Reilly Media Inc, 2016.

Pendukung:
H. Daume, A course in machine learning. 2012.

2020 Machine Learning Pusat Bahan Ajar dan eLearning


14 Indrajani S.Kom., MM http://www.mercubuana.ac.id

Anda mungkin juga menyukai