Analisis Testimonial Wisatawan Menggunakan Text Mining Dengan Metode Naive Bayes Dan Decision Tree, Studi Kasus Pada Hotel - Hotel Di Jakarta
Analisis Testimonial Wisatawan Menggunakan Text Mining Dengan Metode Naive Bayes Dan Decision Tree, Studi Kasus Pada Hotel - Hotel Di Jakarta
Analisis Testimonial Wisatawan Menggunakan Text Mining Dengan Metode Naive Bayes Dan Decision Tree, Studi Kasus Pada Hotel - Hotel Di Jakarta
ABSTRACT
The ability to express the opinion of lines of text can be extremely useful, and this is a good
area to be studied, no doubt because of the possibility of commercial value because most information
is now stored as text. In this age of the internet today many reviews, opinions, comments or opinions
are so abundant and scattered in internet media in the form of text, thus giving rise to the term or
overflow of text that can be used as the object of the new knowledge that is what is called Text Mining.
Currently, Text mining is believed to have a high potential commercial value. Text Mining is a process
that aims to find the information or the latest trends previously revealed, to process and analyze large
amounts of data. In analyzing part or all unstructured text, text mining to try to associate one with the
other parts of the text based on certain rules.
Besides text mining is also interpreted as a data mining activities from the data in the form of
text or a document, with the aim of searching for words that can represent what is in the document so it
can be analyzed in text mining connectedness, In the processing Text Mining conducted prior
Tokenizing process, Filtering, Stemming, Tagging and Analyzing. Stages of the process is carried out
with the help of tools Semantria. Results semantria process tool is a classification based sentiment
analysis. After appearing classification sentiment analysis, the next step was measured by the method
of Naive Bayes and Decision Tree. Baselines to generate corresponding processed products is to ensure
the characteristics of the data related to the objectives to be achieved from the study.
In the context in the field of Text Mining There are a variety of processing one of which is with
Process Mining with a focus on the classification.The processed text mining based on sentiment
classification, the region with the sequence that has the highest positive sentiment Central Jakarta
(80.7%) and North Jakarta (71.2%), East Jakarta (65.1%), West Jakarta (65% ) and South Jakarta
(63.8%).
39
Jurnal Informatika dan Bisnis
40
Jurnal Informatika dan Bisnis
perangkat lunak, jaringan komunikasi, data persen besamaan dengan penjualan keripik
resources, dan kebijakan maupun prosedur jagung. Informasi ini membantu manajer untuk
untuk menyimpan, mengambil, mengubah, mengambil keputusan yang lebih baik karena
maupun memilah informasi di dalam sebuah mereka telah belajar dari keuntungan
organisasi[6]. berpromosi.
41
Jurnal Informatika dan Bisnis
b. Data Discrimination
Pola dimana sebuah variabel memiliki Text Mining (penambangan teks) adalah
tingkat keyakinan dengan variabel lainnya dan suatu proses yang bertujuan untuk menemukan
tingkat pendukung dimana variabel lain informasi atau tren terbaru yang sebelumnya
memiliki kesamaan. tidak terungkap, dengan memproses dan
menganalisa data dalam jumlah besar. Dalam
c. Correlations menganalisa sebagian atau keseluruhan
unstructured text, text mining mencoba untuk
Tingkat hubungan satu variabel dengan mengasosiasikan satu bagian teks dengan yang
variabel lainnya. lainnya berdasarkan aturan-aturan tertentu.
Selain itu text mining juga diartikan sebagai
3. Classification and Regression for kegiatan menambang data dari data yang
Predictive Analysis berupa teks atau dokumen, dengan tujuan
mencari kata-kata yang dapat mewakili apa
a. Classification
yang ada dalam dokumen sehingga dapat
Klasifikasi adalah sebuah proses untuk dilakukan analisa keterhubungan dalam text
menemukan permodelan (atau fungsi) yang mining adalah sebagai berikut :
menjabarkan dan membedakan konsep atau
1. Tokenizing
kelompok data.
Proses ini memotong setiap kata dalam
b. Regression teks, dan mengubah huruf dalam dokumen
menjadi huruf kecil. Hanya huruf “a” sampai
Analisis regresi adalah suatu metodologi “z” yang diterima, sedangkan karakter selain
statistik untuk memperkirakan hubungan antar huruf dihilangkan. Jadi hasil proses tokenizing
variabel yang sering digunakan untuk prediksi adalah kata yang merupakan penyusun kalimat
angka. /string yang dimasukan.
42
Jurnal Informatika dan Bisnis
43
Jurnal Informatika dan Bisnis
Supervised Learning dapat diterapkan begitu yang sama juga belajar untuk
saja untuk beberapa dokumen-tingkat mempertimbangkan kata sifat gradable.
klasifikasi sentimen, dan Lexicon-based
Method. Sebelum membahas algoritma yang Orientasi sentimen kalimat ditentukan
ada (beberapa algoritma tidak menggunakan dengan menjumlahkan nilai orientasi semua
subjektivitas klasifikasi langkah), mari kita kata sentimen dalam kalimat. Sebuah kata
menunjukkan asumsi implisit yang dibuat positif diberi nilai sentimen dari +1 dan kata
dalam banyak penelitian pada subjek. Asumsi negatif diberi nilai sentimen -1. Kata negasi dan
kalimat-tingkat klasifikasi sentimen: Sebuah kata-kata yang bertentangan (misalnya, tapi dan
kalimat mengungkapkan sentimen tunggal dari namun) juga dipertimbangkan. Dalam (Kim
pemegang pendapat tunggal. dan Hovy, 2004), pendekatan yang sama juga
digunakan. Metode kompilasi leksikon
Menurut Yu dan Hatzivassiloglou (2003) “For sentimen juga serupa. Namun, mereka
sentiment classification of subjective sentences, menentukan orientasi sentimen kalimat dengan
used a method similar to that in (Turney, 2002). mengalikan nilai dari kata sentimen dalam
Instead of using one seed word for positive and kalimat. Sekali lagi, kata positif diberi nilai
one for negative as in (Turney, 2002), this work sentimen dari +1 dan kata negatif diberi nilai
used a large set of seed adjectives. sentimen -1. Para penulis juga bereksperimen
Furthermore, instead of using PMI, this work dengan dua metode lain menggabungkan nilai
used a modified log-likelihood ratio to sentimen tapi mereka lebih rendah. Dalam
determine the positive or negative orientation (Kim dan Hovy, 2004), digunakan untuk
for each adjective, adverb, noun and verb. To mengidentifikasi beberapa jenis tertentu dari
assign an orientation to each sentence, it used pendapat. Dalam (Nigam dan Hurst 2004),
the average log-likelihood scores of its words. Nigam dan Hurst menerapkan leksikon tertentu
Two thresholds were chosen using the training dan pendekatan NLP dangkal untuk menilai
data and applied to determine whether the orientasi sentimen kalimat.
sentence has a positive, negative, or neutral
orientation. The same problem was also studied 2.10. Naive Bayes Classifer (NBC)
in (Hatzivassiloglou and Wiebe, 2000)
considering gradable adjectives.” NBC merupakan salah satu algoritma
dalam teknik data mining yang menerapkan
Untuk klasifikasi sentimen kalimat teori Bayes dalam klasifikasi . Teorema
subjektif, Yu dan Hatzivassiloglou (2003) keputusan Bayes adalah adalah pendekatan
menggunakan metode yang sama dengan statistik yang fundamental dalam pengenalan
publikasi oleh Turney di tahun 2002, karya ini pola (pattern recoginition). Naive bayes
menggunakan set besar kata sifat utama. Selain didasarkan pada asumsi penyederhanaan bahwa
itu, alih-alih menggunakan Pointwise Mutual nilai atribut secara konditional saling bebas jika
Information (definisi atau titik informasi timbal diberikan nilai output. Dengan kata lain,
balik, adalah ukuran dari asosiasi yang diberikan nilai output, probabilitas mengamati
digunakan dalam teori informasi dan statistik. secara bersama adalah produk dari probabilitas
Berbeda dengan informasi mutual (MI) yang individu. Dengan memasukkan Persamaan 1 ke
dibangun berdasarkan PMI, mengacu pada Persamaan 2 akan diperoleh pendekatan yang
kejadian tunggal, sedangkan MI mengacu pada digunakan dalam NBC.
rata-rata dari semua peristiwa yang mungkin.),
karya ini menggunakan modifikasi log- 2.11. Decision Tree
likehood ratio untuk menentukan orientasi Decision tree merupakan salah satu
positif atau negatif untuk setiap kata sifat, kata metode klasifikasi yang menggunakan
keterangan, kata benda dan kata kerja. Untuk representasi struktur pohon (tree) di mana
menetapkan orientasi untuk setiap kalimat, setiap node merepresentasikan atribut,
digunakan skor log-kemungkinan rata-rata cabangnya merepresentasikan nilai dari atribut,
yang terdapat di kata-kata. Dua ambang dipilih dan daun merepresentasikan kelas. Node yang
menggunakan data pelatihan dan diterapkan paling atas dari decision tree disebut sebagai
untuk menentukan apakah kalimat memiliki root. Decision tree merupakan metode
orientasi positif, negatif, atau netral. Masalah klasifikasi yang paling populer digunakan.
Selain karena pembangunannya relatif cepat,
44
Jurnal Informatika dan Bisnis
3. METODE PENELITIAN
45
Jurnal Informatika dan Bisnis
Keterangan:
S = Himpunan Kasus 4.2. Jakarta Pusat
A = Fitur
n = jumlah partisi atribut A Tamu yang menginap di hotel-hotel
|Si| = Proporsi Si terhadap S daerah Jakarta Pusat berada di taraf sangat puas
|S| = jumlah kasus dalam S karena memiliki nilai 80,7% untuk sentimen
positifnya dari hasil perhitungan menggunakan
c. Ulangi terus langkah sebelumnya yaitu algoritma Naive Bayes. Sedangkan untuk nilai
menghitung nilai tiap atribut berdasarkan batas bawah dan batas atas pada Document
nilai gain yang tertinggi hingga semua Sentiment kali ini mencapai -0,035 < x < 0,220
record terpartisi. dengan menggunakan metode Decision Tree.
d. Proses dari Decision Tree ini akan berhenti Berikut tabel perbandingannya :
jika semua record dalam simpul N mendapat
Naive Decision Memenuhi
kelas yang sama, tidak ada atribut di dalam Sentiment
Bayes Tree Syarat?
record yang dipartisi lagi, dan tidak ada
record di dalam cabang yang kosong. Positive 0,469 >0 ,220 Yes
Negative - 0,162 < - 0,035 Yes
4. ANALISIS DAN PEMBAHASAN
Neutral 0,125 < 0,220 Yes
Pembahasan ini dibuat berdasarkan tahapan
dan proses yang terdiri dari :
1. Input Data dari Tripadvisor.co.id ke dalam
4.3. Jakarta Timur
tabel
2. Penerapan Text Processing Tamu yang menginap di hotel-hotel
3. Pengujian Data dengan metode Naive daerah Jakarta Timur berada di taraf yang biasa
Bayes dan Decision Tree saja karena memiliki nilai 65,1% untuk
4. Hasil Uji dari metode Naive Bayes dan sentimen positifnya dari hasil perhitungan
Decision Tree menggunakan algoritma Naive Bayes.
5. Rancangan Prototype Graphical User Sedangkan untuk nilai batas bawah dan batas
Interface berbasis Web atas pada Document Sentiment kali ini
46
Jurnal Informatika dan Bisnis
mencapai -0,008 < x < 0,215 dengan Hotel – hotel di daerah Jakarta Barat ini
menggunakan metode Decision Tree memiliki tingkat kepuasan yang cukup karena
sentimen postifnya berada di angka 65%, lebih
Naive Decision Memenuhi rendah sedikit dari Jakarta Timur yang meraih
Sentiment
Bayes Tree Syarat? sentimen positif sebesar 65,1%.
Positive 0,451 > 0 ,215 Yes
Naive Decision Memenuhi
Negative - 0,241 < - 0,008 Yes Sentiment
Bayes Tree Syarat?
Neutral 0,121 < 0,215 Yes Positive 0,459 > 0,209 Yes
<-
4.4. Jakarta Selatan Negative - 0,190 Yes
0,050
Nilai batas bawah dan batas atas pada Neutral 0,084 < 0,209 No
Document Sentiment kali ini mencapai -0,068 <
x < 0,222 dengan menggunakan metode 4.6. Graphical User Interface
Decision Tree. Bisa dikatakan bahwa Hotel –
hotel di daerah Jakarta Selatan ini memiliki Penulis mengimplentasikan hasil
tingkat kepuasan yang tersebut kedalam GUI dengan menggunakan
bootstrap. Bootstrap merupakan framework
cukup karena sentimen postifnya berada di untuk membangun desain web secara responsif.
angka 63,8%, lebih rendah dari Jakarta Timur Artinya, tampilan web yang dibuat oleh
yang meraih sentimen positif sebesar 65,1%. bootstrap akan menyesuaikan ukuran layar dari
Naive Decision Memenuhi browser yang kita gunakan baik di desktop,
Sentiment tablet ataupun mobile device. Bootstrap
Bayes Tree Syarat?
merupakan framework untuk membangun
Positive 0,472 > 0 ,222 Yes desain web secara responsif. Artinya, tampilan
<- web yang dibuat oleh bootstrap akan
Negative - 0,287 Yes
0,068 menyesuaikan ukuran layar dari browser yang
Neutral 0,091 < 0,222 Yes kita gunakan baik di desktop, tablet ataupun
mobile device.
4.5. Jakarta Barat
5. SIMPULAN 6. REKOMENDASI
Berdasarkan analisis dan pembahasan Tentunya dalam pembuatan penelitian ini
sebagaimana yang tertulis pada bab IV ,maka peneliti ingin memberkan rekomendasi bagi
dapat disimpulkan sebagai berikut : peneliti berikutnya, yaitu:
1. Hasil olahan text mining berdasarkan 1. Peneliti berikutnya disarankan
klasifikasi sentimen, maka wilayah dengan melakukan olah Text Mining dengan
47
Jurnal Informatika dan Bisnis
metode selain Naive Bayes yaitu dengan [10] Taylor & Francis Group. ISBN-13: 978-1-
metode Support Vector Machine dan 4398-3943-0
kNN.
[11] Davidov, D., Tsur, O., & Rappoport, A.
2. Untuk rancangan GUI bagi peneliti (2010, August). Enhanced sentiment
berikutnya, dapat menggunakan php learning using twitter hashtags and
murni yang dapat menampilkan hasilnya smileys. In Proceedings of the 23rd
tanpa bantuan tools RapidMiner, International Conference on
sehingga user dapat menegtahui Computational Linguistics: Posters (pp.
hasilnya. 241-249). Association for Computational
Linguistics.
3. Bagi peneliti berikutnya yang ingin [12] Dehaff, M. 2010. Sentiment Analysis,
melakukan penelitian di bidang text Hard But Worth It!. [Online]. Tersedia di:
mining, masih banyak tema – tema yang [13] http://www.customerthink.com/blog/s
belum dikaji khususnya terkait dengan entiment_analysis_hard_but_worth_it
kuliner atau objek wisata berikut fasilitas
yang berada di wilayah Jakarta Utara. [14] Han, Jiawei and Micheline Kamber
(2006), Data Mining: Concepts and
Techniques, 2nd ed., The Morgan
7. DAFTAR PUSTAKA Kaufmann Series in Data Management
Systems, Jim Gray, Series Editor
[1] Aston, N., Liddle, J., & Hu, W. (2014). [15] Hurst, M., and Nigam, K. (2004).
“Twitter Sentiment in Data Streams with Retrieving topical sentiments from online
Perceptron”, Journal of Computer and document collections. In Proceedings of
Communications, 2014. the 11th Conference on Document
[2] Asur, S., & Huberman, B. A. (2010, Recognition and Retrieval.
August). Predicting the future with social [16] Morgan Kaufmann Publishers, March
media. In Web Intelligence and Intelligent 2006. ISBN 1-55860-901-6
Agent Technology (WI-IAT), 2010 [17] Jason Jong (2011). Predicting Rating
IEEE/WIC/ACM International Conference with Sentiment Analysis .,
on (Vol. 1, pp. 492-499). IEEE. http://cs229.stanford.edu/proj2011/Jong%
[3] Berry, Michael Wand & Jacob Kogan 20PredictingRatingwithSentimentAnalysis
(2010), Text mining: applications and .pdf
theory [18] Kim, Soo-Min & Eduard Hovy (2004),
[4] John Wiley and Sons, Ltd Determining the Sentiment of Opinions,
Proceedings of the COLING conference,
[5] Bing Liu (2012). Sentiment Analysis and Geneva.
Opinion Mining, Morgan & Claypool [19] Laudon, Kenneth C., Jane P. Laudon
Publishers, May 2012. dan Ahmed Elragal (2012), Sistem
[6] Bollen, J., Mao, H., Zeng, X., (2011). Informasi Manajemen : Mengelola
Twitter mood predicts the stock market, Perusahaan Digital, Edisi ke-12,
Journal of Computational Science 2, pp.1- Jakarta:Salemba Empat.
8 [20] Larose, D. T. 2005. Discovering
[7] Bowo Prasetyo. “Mengenal RapidMiner : Knowledge in Data. New Jersey: John
Tool Open Source untuk Data Mining”, Willey & Sons, Inc. ISBN0-471-66657-2.
http://www.slideshare.net/bowoprasetyo/ra [21] Linus Philip Lawrence, Reliability of
pidminer. Sentiment Mining Tools: A comparison of
[8] Connolly, Thomas dan Carolyn Begg Semantria and Social Mention.,
(2014), Database Systems : Practical http://essay.utwente.nl/65302/
Approach to Design, Implementation, and [22] Markus Hofmann, Ralf Klinkenberg,
Management, Edisi ke-6, England:Addison “RapidMiner: Data Mining Use Cases and
Wesley. Business Analytics Applications (Chapman
[9] Dua, S. & Xian Du. 2011. Data Mining and & Hall/CRC Data Mining and Knowledge
Machine Learning in Cybersecurity. USA: Discovery Series),” CRC Press, October
25, 2013.
48
Jurnal Informatika dan Bisnis
49