Modul P12
Modul P12
MACHINE
LEARNING
(P151700003)
Naïve Bayes
12
Ilmu Komputer Teknik Informatika P151700003 Indrajani, S.Kom., MM
Abstract Competencies
Naïve Bayes Classifiermerupakan sebuah metoda klasi_kasi yang berakar pada teorema
Bayes . Metode pengklasi_kasian dg menggunakan metode probabilitas dan statistik yg
dikemukakan oleh ilmuwan Inggris Thomas Bayes , yaitu memprediksi peluang di masa
depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema
Bayes. Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan
independensi dari masing-masing kondisi / kejadian.
Menurut Olson Delen (2008) menjelaskan Naïve Bayes unt setiap kelas keputusan,
menghitung probabilitas dg syarat bahwa kelas keputusan adalah benar, mengingat vektor
informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen.
Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah
frekuensi dr ” master ” tabel keputusan.
Naive Bayes Classifier bekerja sangat baik dibanding dengan model Classifier lainnya. Hal
ini dibuktikan oleh Xhemali , Hinde Stone dalam jurnalnya “Naïve Bayes vs.Decision Trees
vs. Neural Networks in the Classi_cation of Training Web Pages” mengatakan bahwa “Naïve
Bayes Classifiermemiliki tingkat akurasi yg lebih baik disbanding model Classifier lainnya”.
Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan jumlah data
pelatihan ( training data ) yg kecil unt menentukan estimasi parameter yg diperlukan
dalam proses pengklasi_kasian. Karena yg diasumsikan sebagai variable
independent, maka hanya varians dr suatu variable dalam sebuah kelas yg
dibutuhkan unt menentukan klasi_kasi, bukan keseluruhan dr matriks kovarians.
Data mining merupakan serangkaian proses untuk menggali nilai tambah berupa informasi
yang selama ini tidak diketahui secara manual dari suatu basis data. Salah satu metode data
mining adalah klasifikasi yaitu proses pencarian model klasifikasi yang dapat membedakan
objek label kelasnya. Naïve Bayes Classifier adalah salah satu teknik yang dapat dipakai
untuk membangun model klasifikasi. Pada penelitian ini metode Naïve Bayes Classifier
diterapkan sebagai teknik yang membangun model klasifikasi (pengelompokan) dari
dokumen-dokumen yang ada di sebuah perpustakaan. Perpustakaan merupakan tempat
dimana pengunjung memperoleh akses terhadap informasi dan pengetahuan. Mengingat
banyaknya data buku yang dimiliki perpustakaan, pengelompokan dokumen sangat perlu
dilakukan. Oleh karena itu sangat diperlukan sebuah perangkat lunak yang handal untuk
mengatasi pengelompokan dokumen tersebut, demi terciptanya kenyamanan pencarian data
buku yang dilakukan oleh pengunjung. Cara kerja dari metoda lunak Naïve Bayes Classifier
menghitung peluang dari satu kelas dari masing-masing kelompok atribut yang ada dan
menentukan kelas mana yang paling optimal, artinya pengelompokan dapat dilakukan
berdasarkan kategori yang pengguna masukkan pada perangkat lunak. Hasil pengujian
diperoleh Naïve Bayes Classifier mengklasifikasikan beberapa judul dan ketegori yang
terdapat pada database perpustakaan kemudian pencarian akan dilanjutkan lebih mendalam
dengan melibatkan deskripsi dari setiap buku, sehingga akan menampilkan lebih banyak
referensi sebagai hasil pencarian. Tentunya referensi tersebut berkaitan dengan kata yang di
masukkan oleh pengunjung pada mesin pencarian di aplikasi perpustakaan tersebut. Dengan
demikian diharapkan dapat membantu pengunjung dengan memperoleh peluang yang lebih
besar dalam pencarian buku yang diinginkan.
1. Pendahuluan
Saat ini, kemajuan teknologi di bidang basis data masa kini semakin meningkat. Kemajuan
teknologi ini memungkinan suatu perusahaan atau organisasi mengumpulkan data dari
2020 Machine Learning Pusat Bahan Ajar dan eLearning
5 Indrajani S.Kom., MM http://www.mercubuana.ac.id
berbagai sumber dengan mudah dan cepat, sehingga membuat volume data menjadi semakin
besar dan terus bertambah. Semakin besarnya volume data yang ada menimbulkan masalah
dalam pengklasifikasian atau pengelompokannya. Data yang tersebar tanpa dikelompokkan
dengan aturan tertentu tentunya akan memperlambat proses pencarian. Untuk data skala kecil
tentunya tidak ada masalah yang signifikan dalam proses pencarian, namun untuk data skala
besar sangat dibutuhkan kecepatan dalam proses pencarian data, sehingga dibutuhkan
pengelompokan data terlebih dahulu.
Naïve Bayes Classifier merupakan merupakan salah satu metoda di dalam data mining untuk
mengklasifikasikan data. Cara kerja dari metode Naïve Bayes Classfier menggunakan
perhitungan probabilitas. Konsep dasar yang digunakan oleh Naïve bayes adalah Teorema
Bayes, yaitu teorema yang digunakan dalam statistika untuk menghitung suatu peluang,
Bayes Optimal Classifier menghitung peluang dari satu kelas dari masing-masing kelompok
atribut yang ada, dan menentukan kelas mana yang paling optimal. Proses pengelompokan
atau klasifikasi dibagi menjadi dua fase yaitu learning/training dan testing/classify. Pada fase
learning, sebagian data yang telah diketahui kelas, datanya diumpankan untuk membentuk
model perkiraan. Kemudian pada fase testing, model yang sudah terbentuk diuji dengan
sebagian data.
Data yang digunakan di sini adalah data perpustakaan. Perpustakaan merupakan tempat yang
cukup sering dikunjungi baik hanya sekedar membaca ataupun untuk mencari referensi.
Fasilitas dan kenyamanan bagi pengunjung merupakan hal yang senantiasa perlu ditingkatkan
diantaranya mempermudah pengunjung dalam hal pencarian buku dengan memanfaatkan
software yang ada sehingga dapat membantu para pengunjung lebih cepat mengetahui daftar
buku serta tempat penyimpanan buku yang ada pada perpustakaan tersebut dengan
keakuratan pengklasifikasian dokumen yang baik. Untuk itu dibutuhkan metode Naïve Bayes
Classfier untuk klasifikasi dokumen (di sini dokumen berupa data buku yang ada di
perpustakaan) yang akan diterapkan dalam membangun perangkat lunak pencarian pada
Aplikasi Perpustakaan. Fungsinya untuk mempercepat proses pencarian data buku pada
Aplikasi Perpustakaan sehingga membantu meningkatkan pelayanan pada perpustakaan.
Naïve Bayes adalah suatu metoda yang termasuk ke dalam supervised learning, maka akan
dibutuhkan pengetahuan awal untuk dapat mengambil keputusan. Langkah-langkah :
Step 1 : Bentuk vocabulary pada setiap dokumen data training
Step 2 : Hitung probabilitas pada setiao kategori P(vj).
Step 2 : Tentukan frekuensi setiap kata wk pada setiap kategori P(wk|vj)
Pendukung:
H. Daume, A course in machine learning. 2012.