0% menganggap dokumen ini bermanfaat (0 suara)
163 tayangan

Decision Tree

data mining decision tree untuk pengambilan keputusan berdasarkan metode ID3, chart dan credit scoring dengan bantuan software statistica

Diunggah oleh

Anggia Nurani P
Hak Cipta
© Attribution Non-Commercial (BY-NC)
Format Tersedia
Unduh sebagai DOC, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
163 tayangan

Decision Tree

data mining decision tree untuk pengambilan keputusan berdasarkan metode ID3, chart dan credit scoring dengan bantuan software statistica

Diunggah oleh

Anggia Nurani P
Hak Cipta
© Attribution Non-Commercial (BY-NC)
Format Tersedia
Unduh sebagai DOC, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 21

Decision Tree

Tugas Mata Kuliah Data Mining

Anggia Nurani Pertiwi 140610090073

1. Metode ID3
Berikut ini disajikan sebuah data tentang pembelian komputer Credit rating. (Buys computer) sebagai variabel respon dengan melibatkan beberapa atribut seperti Age, Income, Student dan

No 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Age <=30 <=30 3140 >40 >40 >40 3140 <=30 <=30 >40 <=30 3140 3140 >40

Income Student Credit_Rating High No Fair High No Excellent High No Fair Medium No Fair Low Yes Fair Low Yes Excellent Low Yes Excellent Medium No Fair Low Yes Fair Medium Yes Fair Medium Yes Excellent Medium No Excellent High Yes Fair Medium No Excellent

Buys_Computer No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No

Dari data tersebut akan dibentuk decision tree dengan metoda ID3. Pembagian dilakukan berdasarkan nilai Gain yang terbesar di antara atribut dan kategori dari masingmasing atribut. Nilai Gain diperoleh melalui rumus di bawah ini:

Keterangan: Split S = Menunjukkan pembagian berdasarkan kategori dari masing-masing variabel predictor = Sampel yang digunakan pada data training = Proporsi jumlah kategori yang digunakan terhadap jumlah sampel = kategori dari atribut yang digunakan

Untuk membentuk decision tree dari data di atas, pertama-tama akan dibuat data training untuk membuat model (root). Berikut adalah data trainingnya:

Age <=30 <=30 <=30 <=30 <=30 Income High High High High

Buys Computer no no no yes yes Buys Computer No No Yes Yes

Age 3140 3140 3140 3140

Buys Computer yes yes yes yes

Age >40 >40 >40 >40 >40 Income Low Low Low Low

Buys Computer yes yes no yes no Buys Computer Yes No Yes Yes

Income Medium Medium Medium Medium Medium Medium

Buys Computer Yes No Yes Yes Yes No Student Yes Yes Yes Yes Yes Yes Yes Credit_Ratin g excellent excellent excellent excellent excellent excellent

Student No No No No No No No Credit_Ratin g fair fair fair fair fair fair fair fair

Buys Computer No No Yes Yes No Yes No

Buys Computer Yes No Yes Yes Yes Yes Yes

Buys_Computer No Yes Yes Yes No Yes Yes Yes

Buys_Computer no no yes yes yes no

Dari data training tersebut pertama-tama akan dihitung nilai Impurity untuk variabel Buys computer (respon). Dengan rumus sebagai berikut:

Dengan bantuan MS.Excel berikut adalah hasilnya: Keputusan Yes No Total Impurity Buys_Computer 9 5 14 0.94 P 0.64 0.36 1

Dari variabel Buys computer (respon) diperoleh nilai Impurity) sebesar 0.94. selanjutnya akan dihitung nilai Gain untuk masing-masing atribut sesuai data training di atas. Berikut adalah hasil perhitungannya:

Buys_Computer P yes P no ni/n Entropy (i) Entropy (s) Gain

<=30 0,04 0,06 0,36 0,97

Age 31-40 1,00 0,00 0,29 0,00 0,94 0,25

>40 0,60 0,40 0,36 0,97

Buys_Computer P yes P no ni/n Entropy (i) Entropy (s) Gain

Low 0,75 0,25 0,29 0,81

Income Medium 0,67 0,33 0,43 0,92 0,94 0,03 Student Yes 0,43 0,57 0,50 0,99 No 0,86 0,14 0,50 0,59

High 0,50 0,50 0,29 1,00

Buys_Computer P yes P no ni/n Entropy (i)

Entropy (s) Gain

0,94 0,15 Credit Rating Fair Excelent 0,75 0,50 0,25 0,50 0,57 0,43 0,81 1,00 0,94 0,05

Buys_Computer P yes P no ni/n Entropy (i) Entropy (s) Gain

Dari hasil perhitungan di atas dapat dilihat bahwa nilai Gain terbesar adalah 0.25 yang dimiliki oleh atribut Age. Langkah selanjutnya setelah pembentukan data training adalah partisi secara rekursiv untuk atribut yang memiliki nilai Gain terbesar. Telah diketahui sebelumnya yang memiliki nilai Gain terbesar adalah atribut Age. Pada atribut Age terdapat tiga kategori yaitu <=30, 3140 dan >40, namun karena pada kategori 3140 respon nya tidak beragam maka kategori yang digunakan hanya kategori <=30 dan >40. Sehingga susunan data yang digunakan jadi seperti ini:

Age <=30 <=30 <=30 <=30 <=30

Income Student Credit_Rating high no fair high no excellent medium no fair low yes fair medium yes excellent

Buys_Computer no no no yes yes

Age >40 >40 >40 >40 >40

Income Student medium no low yes low yes medium yes medium no

Credit_Rating fair fair excellent fair excellent

Buys_Computer yes yes no yes no

Dari data di atas terlebih dahulu dihitung nilai Impurity untuk respon Buys computer. Berikut adalah hasil perhitungannya:

Keputusan Yes No Total Impurity

Buys_Computer 2 3 5 0.97

Proporsi 0.4 0.6 1

Dari variabel Buys computer (respon) diperoleh nilai Impurity sebesar 0.97 selanjutnya akan dihitung nilai Gain untuk masing-masing atribut sesuai data di atas. Berikut adalah hasil perhitungannya: Untuk kategori Age <=30 Buys_Computer P yes P no ni/n Entropy (i) Entropy (s) Gain Low 1,00 0,00 0,00 0,20 Income Medium 0,50 0,50 1,00 0,40 0,97 0,57 Student Yes 1 0 0 0,4 0,97 0,97 Credit Rating Fair Excelent 0,3 0,5 0,7 0,5 0,9 1,0 0,6 0,4 0,97 No 0 1 0 0,6 High 0,00 1,00 0,00 0,40

Buys_Computer P yes P no ni/n Entropy (i) Entropy (s) Gain

Buys_Computer P yes P no ni/n Entropy (i) Entropy (s)

Gain

0,019

Dari hasil perhitungan partisi kategori Age <=30 di atas dapat dilihat bahwa nilai Gain terbesar adalah 0.97 yang dimiliki oleh atribut Student. Untuk kategori Age >40

Buys_Computer P yes P no ni/n Entropy (i) Entropy (s) Gain

Low 0,50 0,50 1,00 0,40

Income Medium 0,67 0,33 0,92 0,60 0,97 0,02

High -

Buys_Computer P yes P no ni/n Entropy (i) Entropy (s) Gain

Student Yes 0,67 0,33 0,92 0,60 0,97 0,02 Credit Rating Fair Excelent 1,00 0,00 0,00 1,00 0,00 0,00 0,60 0,40 0,97 0,97 No 0,50 0,50 1,00 0,40

Buys_Computer P yes P no ni/n Entropy (i) Entropy (s) Gain

Dari hasil perhitungan partisi kategori Age >40 di atas dapat dilihat bahwa nilai Gain terbesar adalah 0.97 yang dimiliki oleh atribut Credit Rating. Dengan demikian Decision Tree yang terbentuk adalah sebagai berikut:

Age

<=30

3140

>40

Student

BU Y No NOT BUY Fair BU Y

Credit

Yes BU Y

Ratin g

Excellent

NOT BUY

Dari diagram tersebut dapat dilihat bahwa Atribut Age merupakan atribut yang paling berpengaruh terhadap keputusan konsumen untuk membeli computer. Dari atribut Age, diagram tersebut membagi lagi ke dalam 3 kelompok usia sebagai berikut:

Konsumen usia <=30 tahun Pada konsumen kelompok usia ini, terbagi ke dalam dua factor yaitu Pelajar dan Bukan Pelajar Untuk calon konsumen kelompok usia <=30 dengan status Pelajar diperkirakan akan membeli computer, sedangkan yang berstatus Bukan Pelajar kemungkinan tidak akan membeli computer.

Konsumen Usia 31 sampai 40 tahun Pada konsumen kelompok usia ini tidak ada factor lain yang berpengaruh di dalamnya. Dengan demikian untuk semua konsumen dengan rentang usia 31 sampai 40 tahun kemungkinan akan membeli computer tanpa pertimbangan factor apapun.

Konsumen Usia >40 tahun Pada konsumen kelompok usia ini, terbagi ke dalam dua factor yaitu Fair Credit Rating dan Excellent Credit Rating. Untuk calon konsumen kelompok usia >40 tahun yang memiliki fair credit rating, kemungkinan akan membeli computer. Sedangkan yang memiliki excellent credit rating, kemungkinan tidak akan membeli computer.

Dari hasil analisis metode ID3 di atas kemudian ingin diketahui hasilnya apabila analisis dilakukan dengan menggunakan metode chart.

2. Metode Cart
Dengan menggunakan data yang sama berikut akan dilakukan pembentukan decision tree dengan metode Cart. Kali ini untuk pembagian dilakukan berdasarkan nilai Entropy, Gini Index dan Clasification Error terbesar diantara atribut. Dengan terlebih dahulu dihitung nilai Entropy, Gini Index dan Clasification Error untuk respon Buys computer. Berikut adalah hasil perhitungannya: Buys_Computer Proportion Yes 0.64 Proportion No 0.36 Entropy 0.94 Gini index 0.46 Clasification Error 0.36 Kemudian dihitung nilai Entropy, Gini Index dan Clasification Error untuk masingmasing atribut sebagai berikut:

Proportion Yes Proportion No Entropy Gini index Clasification Error Proporsi atribut

Age <=30 0.4 0.6 0.97 0.48 0.4 0.36 Income High 0.5 0.5 1 0.5 0.5 0.29

3140 1 0 0 0 0 0.28

>40 0.6 0.4 0.97 0.48 0.4 0.36

Proportion Yes Proportion No Entropy Gini index Clasification Error Proporsi atribut

Medium 0.67 0.33 0.92 0.44 0.33 0.43

Low 0.75 0.25 0.81 0.375 0.25 0.29

Proportion Yes

Student No 0.43

Yes 0.86

Proportion No Entropy Gini index Clasification Error Proporsi atribut

0.57 0.99 0.49 0.43 0.5

0.14 0.59 0.24 0.14 0.5

Credit Rating Fair Proportion Yes 0.75 Proportion No 0.25 Entropy 0.81 Gini index 0.375 Clasification Error 0.25 Proporsi atribut 0.57

Exellent 0.5 0.5 1 0.5 0.5 0.43

Nilai Entropy, Gini Index dan Clasification Error yang telah didapat untuk masingmasing atribut akan digunakan sebagai pengurang dan pengali dari nilai yang diperoleh pada respon Buys Computer. Sehingga akan menghasilkan nilai Nilai Entropy, Gini Index dan Clasification Error yang bisa dibandingkan untuk masing-masing atribut. Berikut adalah hasil perhitungannya:

Entropy Gini Index Clasificasion Eror

Age 0,25 0,12 0,07

Income 0,03 0,02 0

Student 0,15 0,09 0,07

Credit Rating 0,05 0,03 0

Dari hasil perhitungan di atas dapat dilihat bahwa nilai Entropy, Gini Index dan Clasification Error terbesar dimiliki oleh atribut Age. Dengan demikian pada langkah selanjutnya yaitu partisi akan dilakukan pada atribut Age.

Langkah selanjutnya setelah pembentukan data training adalah partisi untuk atribut yang memiliki nilai Entropy, Gini Index dan Clasification Error terbesar yaitu atribut Age. Pada atribut Age terdapat tiga kategori yaitu <=30, 3140 dan >40, namun karena pada kategori 3140 respon nya tidak beragam maka kategori yang digunakan hanya kategori <=30 dan >40. Sehingga susunan data yang digunakan jadi seperti ini:

Age <=30 <=30 <=30 <=30 <=30

Income Student Credit_Rating high no fair high no excellent medium no fair low yes fair medium yes excellent

Buys_Computer no no no yes yes

Age >40 >40 >40 >40 >40

Income Student medium no low yes low yes medium yes medium no

Credit_Rating fair fair excellent fair excellent

Buys_Computer yes yes no yes no

Dari data di atas terlebih dahulu dihitung nilai Entropy, Gini Index dan Clasification Error untuk respon Buys computer. Berikut adalah hasil perhitungannya:

Buys_Computer Proportion Yes 0.4 Proportion No 0.6 Entropy 0.97 Gini index 0.48 Clasification Error 0.4 Kemudian dihitung nilai Entropy, Gini Index dan Clasification Error untuk masingmasing atribut sebagai berikut:

Untuk kategori Age<=30 Income High 0 1 0 0 0 0.4 Medium 1 0 0 0 0 0.2 Low 0.5 0.5 1 0.5 0.5 0.4

Proportion Yes Proportion No Entropy Gini index Clasification Error Proporsi atribut

Student Yes Proportion Yes 0 Proportion No 1 Entropy 0 Gini index 0 Clasification Error 0 Proporsi atribut 0.6

No 1 0 0 0 0 0.4

Credit Rating Fair Proportion Yes 0.33 Proportion No 0.67 Entropy 0.92 Gini index 0.44 Clasification Error 0.33 Proporsi atribut 0.6

Exellent 0.5 0.5 1 0.5 0.5 0.4

Dari hasil di atas kemudian diperoleh nilai Entropy, Gini Index dan Clasification Error yang telah dikalikan dengan respon Buys Computer sebagai berikut:

Entropy Gini Index Clasification Error

Income 0,570950594 0,28 0,2

Student 0,970950594 0,48 0,4

Credit Rating 0,019973094 0,013333333 0

Dari hasil perhitungan di atas dapat dilihat bahwa nilai Entropy, Gini Index dan Clasification Error terbesar dimiliki oleh atribut Student. Untuk kategori Age>40 Income Medium Proportion Yes 0.67 Proportion No 0.33 Entropy 0.92 Gini index 0.44 Clasification Error 0.33 Proporsi atribut 0.6 Low 0.5 0.5 1 0.5 0.5 0.4

Student Yes Proportion Yes 0.5 Proportion No 0.5 Entropy 1 Gini index 0.5 Clasification Error 0.5 Proporsi atribut 0.4

No 0.67 0.33 0.92 0.44 0.33 0.6

Credit Rating Fair Proportion Yes 1 Proportion No 0 Entropy 0 Gini index 0 Clasification Error 0 Proporsi atribut 0.6

Excellent 0 1 0 0 0 0.4

Dari hasil di atas kemudian diperoleh nilai Entropy, Gini Index dan Clasification Error yang telah dikalikan dengan respon Buys Computer sebagai berikut:

Income Entropy Gini Index 0,019973094 0,013333333

Student 0,01997309 4 0,01333333

Credit Rating 0,970950594 0,48

Clasification Error

3 0

0,4

Dari hasil perhitungan di atas dapat dilihat bahwa nilai Entropy, Gini Index dan Clasification Error terbesar dimiliki oleh atribut Student. Dengan demikian Decision Tree yang terbentuk adalah sebagai berikut:

Age

<=30

3140

>40

Student

BU Y No NOT BUY Fair BU Y

Credit

Yes BU Y

Ratin g

Excellent

NOT BUY

Dari diagram tersebut dapat dilihat bahwa Atribut Age merupakan atribut yang paling berpengaruh terhadap keputusan konsumen untuk membeli computer. Dari atribut Age, diagram tersebut membagi lagi ke dalam 3 kelompok usia sebagai berikut: Konsumen usia <=30 tahun Pada konsumen kelompok usia ini, terbagi ke dalam dua factor yaitu Pelajar dan Bukan Pelajar Untuk calon konsumen kelompok usia <=30 dengan status Pelajar diperkirakan akan membeli computer, sedangkan yang berstatus Bukan Pelajar kemungkinan tidak akan membeli computer. Konsumen Usia 31 sampai 40 tahun

Pada konsumen kelompok usia ini tidak ada factor lain yang berpengaruh di dalamnya. Dengan demikian untuk semua konsumen dengan rentang usia 31 sampai 40 tahun kemungkinan akan membeli computer tanpa pertimbangan factor apapun. Konsumen Usia >40 tahun Pada konsumen kelompok usia ini, terbagi ke dalam dua factor yaitu Fair Credit Rating dan Excellent Credit Rating. Untuk calon konsumen kelompok usia >40 tahun yang memiliki fair credit rating, kemungkinan akan membeli computer. Sedangkan yang memiliki excellent credit rating, kemungkinan tidak akan membeli computer.

Kesimpulan Akhir
Dari perhitungan dan proses pengklasifikasian decision tree di atas, baik dengan metoda ID3 maupun Algoritma Cart memberikan hasil yang sama. Diantaranya sebagai berikut: Penjelasan: Root (model) node adalah atribut Age Branch adalah kategori dari atribut Age yaitu <=30, 3140, >40 Internal Node adalah atribut Student dan Credit Rating Leaf Node atribut Student (yes) adalah Yes (membeli) dan Student (no) adalah No (tidak membeli) Leaf Node atribut Credit Rating (fair) adalah Yes (membeli) dan Credit Rating (exellent) adalah No (tidak membeli)

Saran
Hasil analisis ini dapat digunakan oleh produsen atau distributor komputer untuk melihat fenomena yang terjadi pada calon konsumen mereka. Informasi yang dapat digali dari data ini yaitu tentang klasifikasi usia yang menjadi klasifikasi utama dari para konsumen seperti yang telah dijelaskan sebelumnya.

3. Analisis Data Credit Scoring dengan Software Statistica


Dari data Credit Scoring yang diberikan, berikut adalah langkah-langkah analisisnya menggunakan software STATISTICA_8. 1. Setelah software STATISTICA diaktifkan selanjutnya klik Data Mining Data Mining Workspaces All Procedure. 2. Kemudian masukkan data Credit Scoring dengan mengklik Data Souce Credit Scoring Ok Variable 3. Setelah itu akan muncul tampilan seperti di bawah ini: Untuk Dependent categorical pilih Credit Rating saja Untuk Predictor Continous pilih ke tiga variabel yang diberikan Untuk Predictor Categorical pilih semua variabel yang diberikan kecuali Credit Rating lalu Ok

4. Kemudian klik Node Browser Classification and Discriminant Split Input Data lalu tentukan Percent of Case sebesar 20 kemudian Run, maka akan muncul tampilan seperti ini:

5. Klik Training Data Node Browser - Classification and Discriminant Standart Classification Trees. Lalu hubungkan Testing Data ke Standart Classification Trees dengan menggunakan Connect seperti tampilan berikut.

Kemudian Run maka akan muncul tampilan seperti berikut ini

6. Duble klik Testing PMML Variable maka akan muncul tampilan seperti ini. Lalu pilih variabel sesuai tampilan berikut Ok checklist Always Use These

7. Kemudian klik Node Browser Basic Statistics Crosstabulation Run. Sehingga akan muncul tampilan akhir seperti berikut ini.

Dari penggunaan software di atas, dihasilkan output-output sebagai berikut: 1. Output Standard Classification Trees

Kemudian dihitung nilai miss_training nya

2.

Output Crosstabulation Tables

Kemudian dihitung nilai miss_testing nya

Dari analisis di atas, telah dihitung nilai miss_training dan nilai miss_testing nya. Hasil yang diperoleh menunjukkan bahwa nilai miss_testing (0.361) lebih besar dari nilai miss_training (0.029). Hal ini berarti dari 1000 orang yang masuk ke dalam data Credit Scoring (mengajukan kredit), sebanyak 361 orang masuk klasifikasi yang salah karena kesalahan Bank. Artinya ada kemungkinan terjadi penolakan oleh Bank terhadap calon nasabah yang seharusnya diterima ataupun terjadinya penerimaan calon nasabah yang seharusnya ditolak oleh Bank. Dengan demikian dapat disimpulkan bahwa prediksi model yang dihasilkan dari data training ternyata tidak baik karena memiliki tingkat kesalahan dalam pengklasifikasian yang cukup tinggi.

Anda mungkin juga menyukai