TUGAS DATA MINING
LAPORAN AKHIR PROBLEM 1 Problem: Kualitas Mobil
disusun oleh: KHAIRINA CANTYA A BENING GUMILAR 113090042 113091048
MARISTA RUTH SITANINGRUM 113091051
INSTITUT TEKNOLOGI TELKOM DEPARTEMEN TEKNIK INFORMATIKA 2012
A. Masalah
PT. Makmur bahagia merupakan perusahaan yang bergerak di bidang jual beli mobil bekas. Setiap kali ada mobil yang akan dibelinya maka ia harus memeriksa kondisi mobil, agar dapat diperkirakan apakah sebuah mobil masih layak untuk diperbaiki dan kelak dapat dijual kembali. Berdasarkan pengalamannya, pemiliki pt.makmur bahagia melihat bahwa hal-hal yang harus diperhatikan dari sebuah mobil adalah harga beli (buying), biaya perbaikan (maint) serta model mobil yang dilihat dari criteria jumlah pintu (doors), jumlah penumpang (person), ukuran bagasi (lug boot) serta criteria keamanannya (safety). Seperti terlihat pada data car_train.csv, pemilik perusahaan dapat menentukan akan dibeli jika termasuk acc, good dan v_good. Namun melihat perkembangan pt. Makmur bahagia, pemilik semakin kesulitan jika setiap saat harus datang ke lapangan untuk menilai layak beli sebuah mobil bekas. Oleh karena itu ia meminta bantuan anda untuk dapat memprediksi kualitas beberapa mobil yang sudah dalam antrian untuk diputuskan akan dibeli atau tidak, karena pegawainya sudah mencatat hal-hal yang harus diperhatikan dari sebuah mobil bekas sebagaimana tercatat pada data car_test_question.csv.
Dari deskripsi problem yang diberikan di atas dapat disusun sebuah kerangka permasalahan yaitu: 1. Banyaknya data yang ada membuat sulit menentukan status kelayakan mobil bekas berdasarkan data yang dicatat pada car_test_question.csv secara manual. 2. Faktor yang paling mempengaruhi penentuan status kelayakan mobil bekas.
B.
Tujuan Setelah menemukan permasalahan-permasalahan yang harus dihadapi dari problem diatas, maka disusunlah tujuan analisis permasalahan, yaitu: 1. Menentukan status kelayakan mobil bekas berdasarkan klasifikasi data yang telah dilakukan pada training test (car_train.csv) 2. Menentukan faktor-faktor utama yang memperngaruhi penentuan status kelayakan mobil bekas.
C.
Teori dasar Data adalah deskripsi tentang benda, kejadian, aktivitas, dan transaksi, yang tidak mempunyai makna atau tidak berpengaruh secara langsung kepada pemakai. Proses pengubahan data menjadi informasi dan pengetahuan memerlukan proses penggalian data menggunakan metode dan teknik tertentu. Proses penggalian data dengan mengenali pola menarik dari sebuah data disebut data mining. Data preprocessing adalah strategi dan teknik yang saling berkaitan untuk membuat data lebih mudah/cocok untuk digunakan pada data mining. Tujuannya adalah untuk meningkatkan hasil analisis data mining terkait masalah waktu, cost dan kualitas. Data set digunakan untuk menentukan akurasi dari sebuah model yang akan digunakan, data set terdiri atas training data dan test data.
Metode yang digunakan untuk menyelesaikan problem diatas adalah metode prediksi dengan teknik klasifikasi. Metode ini dilakukan untuk memprediksi nilai suatu variabel yang belum diketahui dengan menggunakan nilai beberapa variabel lain yang sudah diketahui. Di dalam teknik klasifikasi data yang diketahui dibagi menjadi 2, yaitu training set dan test set. Training set adalah data yang digunakan untuk pembelajaran sistem, pada training set algoritma akan berusaha membentuk sebuah model atau pola yang nantinya akan diterapkan pada test set. Di dalam teknik klasifikasi terdapat beberapa metode. Metode-metode tersebut antara lain adalah metode decision tree, rule-based methods, memory based reasoning, neural networks, nave bayes, dan support vector machines. Diantara metode-metode yang telah disebutkan, penulis memilih penggunaan metode decision tree karena pembanguannya relatif cepat dan hasil dari tree mudah untuk dipahami karena memiliki struktur seperti pohon (tree) dimana setiap nodenya merepresentasikan atribut, tiap cabang merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas (nilai atribut yang ingin dicari nilainya). Berikut adalah contoh decision tree
Gambar 1 Contoh Tree
Seperti yang telah dijelaskan diatas teknik klasifikasi membutuhkan algoritma untuk mempelajari data (training set), data yang dipelajari kemudian dibentuk model atau polanya untuk diterapkan kedalam test set. Algoritma di set berbeda untuk data dengan karakteristik yang berbeda. Algoritma dipilih berdasarkan kemampuannya untuk menghasilkan nilai prediksi yang akurat. Keakuratan dari nilai yang dihasilkan diukur dari ketepatan algoritma dalam memberikan nilai pada test set setelah melakukan pembelajaran terhadap training set yang diberikan. Berikut merupakan algoritma-algoritma yang dipelajari penulis untuk menunjang
penyelesaian problem agar mendapat algoritma yang dapat menghasilkan tree yang baik dan solusi optimal yang memberikan akurasi yang mendekati sempurna. 1. Decision stump Merupakan algoritma yang diterapkan pada tools weka. Merupakan algortima yang visualisasinya berupa 1 level tree, disebut juga one-level decision tree. Algoritmna ini bekerja hanya dengan mempelajari 1 buah input sehingga sering disebut 1-rules. Algoritma ini menyebabkan banyak kesalahan karena pembelajarannya yang kurang fleksibel.
2. J48 J48 adalah algoritma c4.5 yang diimplementasikan ke dalam tools weka. Algoritma ini merupakan pengembangan dari algoritma id3. Algoritma c4.5 memungkinkan tiap node memilih atribut yang paling efektif untuk displit menjadi node selanjutnya. Pemilihan atribut didasarkan pada informasi gain yang didapat dari selisih entropy. Information gain dan nilai entropy dapat dihitung dengan rumus: Entrophy (S) =
Keterangan : S : N : Pi : himpunan kasus jumlah partisi S proporsi si terhadap S
Gain (S,A) = Entropy (S) Keterangan: S A N |si| |s| : himpunan kasus : atribut : jumlah partisi a : jumlah kasus pada partisi ke i : jumlah kasus dalam s
3. Random forest Random forest random forest meerupakan kumpulan beberapa tree yang menggunakan konsep BAGGING (Bootsrap + Aggregating). Konsep BAGGING ini adalah teknik yang tidak hanya menghasilkan satu buah pohon tetapi dapat menghasilkan ratusan atau bahkan ribuan tree dari data yang di-resampling yang selanjutnya dilakukan pengumpulan informasi sehingga pada random forest dapat dihasilkan ratusan tree dengan ukuran yang berbeda-beda. Ini dikarenakan tree yang dihasilkan oleh random sampling tidak dilakukan pruning atau pemangkasan.
D.
Solusi 1. Perbandingan algoritma Diantara ketiga algoritma yang dipelajari penulis memutuskan untuk menggunakan algoritma J48 penyebabnya adalah: a. Decision Stump merupakan algoritma dengan tingkat pembelajaran yang rendah, yaitu bedasarkan 1 inputan saja sehingga hasil yang diberikan oleh algoritma ini penulis anggap kurang akurat. b. Random Forest menghasilkan Tree yang lebar, memiliki ratusan bahkan ribuan tree karena menggunakan teknik resampling serta tidak melakukan pruning atau pemangkasan terhadap tree nya. c. Algoritma J48 memiliki keunggulan yang tidak dimiliki oleh algoritma lain seperti melakukan pruning terhadap perhitungan yang tidak diperlukan karena algoritma ini menerapkan penentuan atribut yang memiliki pengaruh yang besar terhadap pengambilan keputusan akhir.
2. Hasil prediksi status yang dilakukan dengan algoritma J48 dengan tools Weka Unacc = 289 Acc = 104
Vgood = 15 Good = 23 (Hasil lengkap dapat dilihat pada lampiran)
3. Dari hasil tree yang di dapat dapat dilihat bahwa atribut yang paling berpengaruh terhadap pangambilan keputusan untuk menentukan status adalah Safety, selanjutnya pengambilan keputusan dipengaruhi oleh atribut person. (hasil Tree lengkap ada pada lampiran)
4. Hasil akurasi
Analisis: Tingkat akurasi algoritma J48 atau C4.5 berada pada kisaran 96% dengan pembulatan kebawah, artinya dapat diprediksikan bahwa dari 100 buah data yang diuji kemungkinan salahnya berkisar 4% atau 4 buah record yang menunjukkan status yang tidak sesuai dengan pola sebelumnya.
Hasil Tree Yang Didapat dari Tools Weka
DAFTAR PUSTAKA
2010. Random Forest.http://bagusco.staff.ipb.ac.id/2010/03/25/random-forest/. [diakses: 04-032012] 2011. Random Forest. http://en.wikipedia.org/wiki/Random_forest. [diakses: 04-03-2012] 2011. Perbedaan Algoritma ID3, C4.5, dan J48. http://codemath.wordpress.com/2011/06/20/perbed aan-algoritma-id3-c4-5-dan-j48/. [diakses: 04-03-2012] 2008. Data Mining- Klasifikasi part 1.http://1pack.wordpress.com/2008/09/06/data-mining-klasifikas i-part-1/. [diakses: 04-03-2012] 2011. Seleksi Fitur Menggunakan Random Forest Dan Neural Network. http://repo.eepisits.edu/1451/1/[B-D103-9]_pp.93-97_Seleksi_Fitur_Menggunakan_Random_Forest_Dan Neur al_Network.pdf. [diakses : 04-03-2012] Overview of Decision Trees. http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/4_dtrees1.ht ml [diakses 04-03-2012]