Analisis Testimonial Wisatawan Menggunakan Text Mining Dengan Metode Naive Bayes Dan Decision Tree, Studi Kasus Pada Hotel - Hotel Di Jakarta

Jurnal Informatika dan Bisnis
ANALISIS TESTIMONIAL WISATAWAN MENGGUNAKAN TEXT MINING

DENGAN METODE NAIVE BAYES DAN DECISION TREE, STUDI KASUS PADA
HOTEL – HOTEL DI JAKARTA
Yonathan Sunoto1) dan Budi Wasito2)

1)Alumni Program Studi Sistem Informasi
2) Sstaf Pengajar Program Studi Sistem Informasi
Institut Bisnis dan Informatika Kwik Kian Gie
Jl. Yos Sudarso Kav.87 Sunter Jakarta Utara 14350
http://www.kwikkiangie.ac.id
ABSTRACT
The ability to express the opinion of lines of text can be extremely useful, and this is a good
area to be studied, no doubt because of the possibility of commercial value because most information
is now stored as text. In this age of the internet today many reviews, opinions, comments or opinions
are so abundant and scattered in internet media in the form of text, thus giving rise to the term or
overflow of text that can be used as the object of the new knowledge that is what is called Text Mining.
Currently, Text mining is believed to have a high potential commercial value. Text Mining is a process
that aims to find the information or the latest trends previously revealed, to process and analyze large
amounts of data. In analyzing part or all unstructured text, text mining to try to associate one with the
other parts of the text based on certain rules.
Besides text mining is also interpreted as a data mining activities from the data in the form of
text or a document, with the aim of searching for words that can represent what is in the document so it
can be analyzed in text mining connectedness, In the processing Text Mining conducted prior
Tokenizing process, Filtering, Stemming, Tagging and Analyzing. Stages of the process is carried out
with the help of tools Semantria. Results semantria process tool is a classification based sentiment
analysis. After appearing classification sentiment analysis, the next step was measured by the method
of Naive Bayes and Decision Tree. Baselines to generate corresponding processed products is to ensure
the characteristics of the data related to the objectives to be achieved from the study.
In the context in the field of Text Mining There are a variety of processing one of which is with
Process Mining with a focus on the classification.The processed text mining based on sentiment
classification, the region with the sequence that has the highest positive sentiment Central Jakarta
(80.7%) and North Jakarta (71.2%), East Jakarta (65.1%), West Jakarta (65% ) and South Jakarta
(63.8%).
Key Words: Tags, Text Processing, Tokenizing, Filtering, RapidMiner
1. PENDAHULUAN secara perorangan, kelompok, atau organisasi.

Sebuah situs web biasanya ditempatkan
Penggunaan Internet saat ini sudah tidak setidaknya pada sebuah server web yang dapat
lepas dari aktifitas keseharian.. Apapun yang diakses melalui jaringan seperti Internet,
kita lakukan, pasti menggunakan internet mulai ataupun jaringan wilayah lokal (LAN) melalui
dari keseharian kita, pekerjaan kita bahkan alamat Internet yang dikenali sebagai URL.
media komunikasi kita sekarang ini tergantung URL adalah singkatan dari Uniform Resource
dari internet. Dalam internet mengandung Locator, yaitu rangkaian karakter menurut
banyak hal dan untuk visualisasinya sendiri suatu format standar tertentu, yang digunakan
disebut sebagai website. Website adalah suatu untuk menunjukkan alamat suatu sumber
halaman web yang saling berhubungan yang seperti dokumen dan gambar di Internet.
umumnya berada pada suatu tempat yang sama Gabungan atas semua situs yang dapat diakses
berisikan kumpulan informasi yang disediakan
39
publik di Internet disebut pula sebagai World information retrival .

Wide Web atau lebih dikenal dengan singkatan
WWW. Setiap kita membuka sebuah website, Text mining adalah salah satu teknik
itu tidak terlepas dari hal-hal tersebut. yang dapat digunakan untuk melakukan
Halaman web adalah tempat yang klasifikasi dokumen dimana text mining
“hijau” bagi orang - orang untuk merupakan variasi dari data mining yang
mengekspresikan pendapat mereka dengan berusaha menemukan pola yang menarik dari
topik yang beragam .Bahkan pemberi opini sekumpulan data tekstual yang berjumlah besar
secara profesional, seperti ulasan perjalanan, (Feldman & Sanger, 2007).
memiliki blog dimana publik dapat Text mining, mengacu pada proses
mengomentari dan merespon apa yang mereka mengambil informasi berkualitas tinggi dari
pikirkan karena seperti yang dijelaskan di awal teks. Informasi berkualitas tinggi biasanya
bahwa internet terhubung dengan dunia. diperoleh melalui peramalan pola dan
Artinya kita yang telah menggunakan layanan kecenderungan melalui sarana seperti
internet, telah terhubung dengan banyak orang pembelajaran pola statistik. Proses text mining
dan bisa mencari informasi apa saja dan yang khas meliputi :
berinteraksi dengan apa saja. Kemampuan 1. Kategorisasi teks,
untuk menyatakan pendapat tersebut dari baris- 2. Text clustering, ekstraksi konsep/ entitas,
baris teks dapat menjadi sangat berguna, dan ini 3. Produksi taksonomi granular,
adalah area yang baik untuk dikaji, tidak 4. Sentiment analysis, penyimpulan
diragukan karena kemungkinan nilai dokumen, dan
komersialnya dikarenakan kebanyakan 5. Pemodelan relasi entitas (yaitu,
informasi saat ini disimpan sebagai teks. Di era pembelajaran hubungan antara entitas
kemajuan internet saat ini banyaknya ulasan, bernama)
opini, komentar atau pendapat yang demikian
melimpah dan bertebaran di media internet Sentiment analysis atau opinion mining
dalam bentuk teks, sehingga memunculkan adalah studi komputasional dari opini-opini
istilah atau limpahan teks yang bisa dijadikan orang, sentimen dan emosi melalui entitas dan
sebagai objek pengetahuan baru yakni apa yang atribut yang dimiliki yang diekspresikan dalam
disebut dengan Text Mining. Saat ini, Text bentuk teks (Liu, 2012). Analisis sentimen akan
mining diyakini memiliki potensi nilai mengelompokkan polaritas dari teks yang ada
komersial tinggi. dalam kalimat atau dokumen untuk2
Namun, dalam membagi komentar ke mengetahui pendapat yang dikemukakan dalam
dalam kategori-kategori tersebut untuk saat ini kalimat atau dokumen tersebut
masih dilakukan secara manual, artinya dalam
mengunggah komentar, kita harus terlebih 2. TINJAUAN PUSTAKA
dahulu mengetahui isi dari komentar yang akan
diunggah secara kesuluruhan untuk selanjutnya 2.1. Sistem Informasi
dimasukkan ke dalam kategori yang tepat. Hal Sistem informasi adalah kumpulan dari
ini sangat merepotkan bagi para calon tamu elemen-elemen yang saling berhubungan
apabila jumlah hotel yang ingin dicari cukup ataupun sekelompok komponen yang
banyak. Oleh karena itu, perlu adanya sistem mengambil (input), memanipulasi (proses),
dimana sistem tersebut dapat menyimpan, dan mengeluarkan (output) data
mengklasifikasikan komentar secara otomatis dan informasi serta menyediakan sebuah reaksi
sesuai dengan kategori-kategori sentimen yang umpan balik (feedback) untuk mencapai tujuan
ada sehingga bisa membantu para calon tamu sistem[8]. Sistem informasi secara teknis
dalam mencari hotel terbaiknya. Text mining didefinisikan sebagai kumpulan elemen-elemen
adalah salah satu teknik yang dapat digunakan yang saling berhubungan yang mengumpulkan
untuk melakukan klasifikasi dimana, text (atau menerima), mengolah, menyimpan, dan
mining merupakan variasi dari data mining menyebarkan informasi untuk selanjutnya
yang berusaha menemukan pola yang menarik digunakan dalam mendukuk pengambilan
dari sekumpulan data tekstual yang berjumlah keputusan serta mengatur sebuah organisasi[4].
besar. Selain klasifikasi, text mining juga Sistem informasi dapat berupa kombinasi yang
digunakan untuk menangani masalah terorganisir dari manusia, perangkat keras,
clustering, information extraction,dan
40
perangkat lunak, jaringan komunikasi, data persen besamaan dengan penjualan keripik
resources, dan kebijakan maupun prosedur jagung. Informasi ini membantu manajer untuk
untuk menyimpan, mengambil, mengubah, mengambil keputusan yang lebih baik karena
maupun memilah informasi di dalam sebuah mereka telah belajar dari keuntungan
organisasi[6]. berpromosi.
2.2. Data 2. Pengurutan (Sequences)
Data adalah kumpulan fakta mentah Di dalam pengurutan, kejadian-kejadian

ataupun hasil pengamatan, biasanya berupa saling berhubungan sejalan dengan waktu.
fenomena fisik ataupun transaksi bisnis[6]. Sebagai contoh kita sering menemukan ketika
Data dapat diartikan sebagai sebuah aliran seseorang membeli rumah, enam puluh lima
fakta-fakta mentah yang mewakili kejadian persen orang akan membeli kulkas dalam waktu
tertentu yang terjadi di dalam sebuah organisasi dua minggu, dan empat puluh lima persen orang
ataupun lingkungan fisik sebelum disusun dan akan membeli oven dalam kurun waktu satu
diurutkan kedalam sebuah bentuk yang dapat bulan sejak pembelian rumah.
dimengerti dan digunakan oleh orang lain[4].
3. Klasifikasi (Classification)
2.3. Database
Klasifikasi digunakan untuk mengenal
Database adalah sebuah kumpulan pola-pola dimana suatu data harus
elemen data yang secara logika saling dikelompokkan dengan cara memeriksa data-
berhubungan[6]. data terdahulu yang sebelumnya telah
dikelompokkan berdasarkan syarat-syarat
2.4. Data Warehouse tertentu. Misalnya perusahaan kartu kredit
ataupun telekomunikasi khawatir kehilangan
Data warehouse adalah sebuah database pelanggannya. Klasifikasi membantu untuk
besar yang mengumpulkan informasi-informasi mengenali mana pelanggan yang berpotensi
bisnis dari berbagai sumber, mencakup segala untuk berhenti sehingga dapat memberikan
aspek proses, produk, dan pelanggan yang ada gambaran untuk membantu manajer
di perusahaan, untuk mendukung manajemen memprediksi pelanggan-pelanggan seperti itu.
pengambilan keputusan di perusahaan itu[8]. Maka manajer dapat memberikan penawaran
2.5. Data Mining khusus untuk mempertahankan pelanggan
tersebut.
Data mining adalah sebuah bidang
penelitian yang berfokus pada pencarian atau 4. Segmentasi (Clustering)
pendefinisian pola-pola pada data. Data mining Segmentasi bekerja mirip dengan
adalah sebuah istilah yang berkaitan dengan klasifikasi, hanya saja kelompok data belum
penggunaan algoritma-algoritma dan komputer ditentukan. Alat data mining dapat membantu
untuk menemukan pola-pola menarik dalam menentukan perbedaan pengelompokkan dalam
data[9]. data-data seperti menemukan kelompok
2.6. Jenis Data Mining afinitas untuk kartu bank maupun memisahkan
data menjadi kelompok-kelompok pelanggan
Menurut [4] data mining dapat dibagi menjadi: berdasarkan demografis dan jenis investasi
pribadi.
1. Asosiasi (Association)
5. Prediksi (Forecasting)
Asosiasi adalah hubungan kejadian-
kejadian dengan satu peristiwa tertentu. Prediksi menggunakan serangkaian
Misalnya, penelitian dari pola pembelian yang nilai-nilai yang sudah ada untuk meramalkan
terjadi di suatu supermarket mengungkapkan nilai lain. Contohnya prediksi dapat
bahwa ketika keripik jagung terjual, maka enam menemukan pola-pola di dalam data untuk
puluh lima persen dari penjualannya, kola ikut dapat membantu para manajer meramalkan
terjual. Tetapi ketika diadakan promosi, maka nilai masa depan seperti penjualan.
penjualan kola menjadi delapan puluh lima
41
Menurut [3] dalam data mining ada pola- 4. Cluster Analysis

pola yang dapat dipahami, yaitu:
Analisis klaster adalah pengelompokan
1. Class/Concept Description: analisis objek data tanpa label kelas.
Characterization and Discrimination
2.7. Process Mining
Entri data dapat dikelompokkan atau
dikonsepkan. Deskripsi ini dapat diterangkan Merupakan suatu proses utama saat
menggunakan: metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari
a. Data Characterization data. Beberapa metode yang dapat digunakan
berdasarkan pengelompokan data mining dapat
Karakterisasi data adalah hasil kumpulan dilihat pada Gambar .
dari karakteristik umum atau fitur dari target
kelompok data.
b. Data Discrimination
Diskriminasi data adalah perbandingan

fitur umum suatu kelompok data dengan fitur
umum objek dari satu atau lebih kelompok lain
yang berlawanan.
2. Mining Frequent Patterns, Associations,

and Correlations
a. Frequent Patterns Gambar 1.1. Process Mining

Pola-pola yang sering muncul di dalam data.
b. Associations 2.8. Text Mining
Pola dimana sebuah variabel memiliki Text Mining (penambangan teks) adalah
tingkat keyakinan dengan variabel lainnya dan suatu proses yang bertujuan untuk menemukan
tingkat pendukung dimana variabel lain informasi atau tren terbaru yang sebelumnya
memiliki kesamaan. tidak terungkap, dengan memproses dan
menganalisa data dalam jumlah besar. Dalam
c. Correlations menganalisa sebagian atau keseluruhan
unstructured text, text mining mencoba untuk
Tingkat hubungan satu variabel dengan mengasosiasikan satu bagian teks dengan yang
variabel lainnya. lainnya berdasarkan aturan-aturan tertentu.
Selain itu text mining juga diartikan sebagai
3. Classification and Regression for kegiatan menambang data dari data yang
Predictive Analysis berupa teks atau dokumen, dengan tujuan
mencari kata-kata yang dapat mewakili apa
a. Classification
yang ada dalam dokumen sehingga dapat
Klasifikasi adalah sebuah proses untuk dilakukan analisa keterhubungan dalam text
menemukan permodelan (atau fungsi) yang mining adalah sebagai berikut :
menjabarkan dan membedakan konsep atau
1. Tokenizing
kelompok data.
Proses ini memotong setiap kata dalam
b. Regression teks, dan mengubah huruf dalam dokumen
menjadi huruf kecil. Hanya huruf “a” sampai
Analisis regresi adalah suatu metodologi “z” yang diterima, sedangkan karakter selain
statistik untuk memperkirakan hubungan antar huruf dihilangkan. Jadi hasil proses tokenizing
variabel yang sering digunakan untuk prediksi adalah kata yang merupakan penyusun kalimat
angka. /string yang dimasukan.
42
2. Filtering Pendekatan manual Text Mining secara

Pada tahap ini dilakukan proses filter intensif dalam laboratorium pertama muncul
atau penyaringan kata hasil dari proses pada pertengahan 1980-an, namun kemajuan
tokenizing, dimana kata yang tidak relevan teknologi telah memungkinkan ranah tersebut
dibuang. Proses ini menggunakan pendekatan untuk berkembang selama dekade terakhir. Text
stoplist. Yang termasuk stoplist adalah “yang”, Mining adalah bidang interdisipliner yang
“di”,”dari” dan lain-lain. mengacu pada pencarian informasi,
3. Stemming pertambangan data, pembelajaran mesin,
Stemming adalah proses untuk statistik, dan komputasi linguistik. Pada
menggabungkan atau memecahkan setiap dasarnya proses kerja dari Text Mining banyak
varian-varian suatu kata menjadi kata dasar. mengapdopsi dari penelitian Data Mining
Stem (akar kata) adalah bagian dari akar yang namun yang menjadi perbedaan adalah pola
tersisa setelah dihilangkan imbuhannya yang digunakan oleh Text Mining diambil dari
(awalan dan akhiran). sekumpulan bahasa alami yang tidak terstruktur
sedangkan dalam Data Mining pola yang
4. Tagging diambil dari database yang terstruktur (Han &
Tagging adalah suatu proses mencari Kamber, 2006). Tahap-tahap Text Mining
bentuk asal dari kata bentuk lampau. Tahap ini secara umum adalah text preprocessing dan
tidak digunakan pada teks bahasa karena kata feature selection (Feldman & Sanger 2007,
dalam bahasa indonesia tidak mempuyai bentuk Berry & Kogan 2010) .
lampau.
2.9. Sentiment Analysis
5. Analizing
Pada tahap ini dilakukan proses Sentiment analysis atau opinion mining
perhitungan bobot dokumen agar diketahui mengacu pada bidang yang luas dari
seberapa jauh tingkat similaritas antara pengolahan bahasa alami, komputasi linguistik
keyword yang dimasukan dengan dokumen. dan text mining yang bertujuan menganlisa
pendapat, sentimen, evaluasi, sikap, penilaian
Klasifikasi/ kategorisasi dokumen adalah dan emosi seseorang apakah pembicara atau
masalah dalam ilmu informasi yaitu untuk penulis berkenaan dengan suatu topik, produk,
menetapkan dokumen elektronik masuk dalam layanan, organisasi, individu, ataupun kegiatan
satu atau lebih kategori, berdasarkan isinya. tertentu (Liu, 2011). Tugas dasar dalam analisis
Tugas klasifikasi dokumen dapat dibagi sentimen adalah mengelompokkan teks yang
menjadi dua macam yaitu klasifikasi dokumen ada dalam sebuah kalimat atau dokumen
terawasi di mana beberapa mekanisme kemudia menentukan pendapat yang
eksternal (seperti feedback manusia) dikemukakan dalam kaliamat atau dokumen
memberikan informasi mengenai klasifikasi tersebut apakah bersifat positif, negatif atau
yang tepat untuk dokumen, dan klasifikasi netral (Dehaff, M., 2010). Sentiment analysis
dokumen tak terawasi, dimana klasifikasi harus juga dapat menyatakan perasaan emosional
dilakukan sepenuhnya tanpa merujuk ke sedih, gembira, atau marah. Kita dapat mencari
informasi eksternal. Ada juga klasifikasi pendapat tentang produk-produk, merek atau
dokumen semi-diawasi, dimana bagian dari orang-orang dan menentukan apakah mereka
dokumen diberi label oleh mekanisme dilihat positif atau negatif di web (Saraswati,
eksternal. 2011). Hal ini memungkinkan kita untuk
mencari informasi tentang:
(1) Deteksi Flame (rants buruk)

(2) Persepsi produk baru.
(3) Persepsi Merek.
(4) Manajemen reputasi.
d. Sentences Sentiment Classification
Jika kalimat diklasifikasikan sebagai

subjektif, kita menentukan apakah itu
Gambar 2.1. Text Processing mengungkapkan pendapat positif atau negatif.
43
Supervised Learning dapat diterapkan begitu yang sama juga belajar untuk
saja untuk beberapa dokumen-tingkat mempertimbangkan kata sifat gradable.
klasifikasi sentimen, dan Lexicon-based
Method. Sebelum membahas algoritma yang Orientasi sentimen kalimat ditentukan
ada (beberapa algoritma tidak menggunakan dengan menjumlahkan nilai orientasi semua
subjektivitas klasifikasi langkah), mari kita kata sentimen dalam kalimat. Sebuah kata
menunjukkan asumsi implisit yang dibuat positif diberi nilai sentimen dari +1 dan kata
dalam banyak penelitian pada subjek. Asumsi negatif diberi nilai sentimen -1. Kata negasi dan
kalimat-tingkat klasifikasi sentimen: Sebuah kata-kata yang bertentangan (misalnya, tapi dan
kalimat mengungkapkan sentimen tunggal dari namun) juga dipertimbangkan. Dalam (Kim
pemegang pendapat tunggal. dan Hovy, 2004), pendekatan yang sama juga
digunakan. Metode kompilasi leksikon
Menurut Yu dan Hatzivassiloglou (2003) “For sentimen juga serupa. Namun, mereka
sentiment classification of subjective sentences, menentukan orientasi sentimen kalimat dengan
used a method similar to that in (Turney, 2002). mengalikan nilai dari kata sentimen dalam
Instead of using one seed word for positive and kalimat. Sekali lagi, kata positif diberi nilai
one for negative as in (Turney, 2002), this work sentimen dari +1 dan kata negatif diberi nilai
used a large set of seed adjectives. sentimen -1. Para penulis juga bereksperimen
Furthermore, instead of using PMI, this work dengan dua metode lain menggabungkan nilai
used a modified log-likelihood ratio to sentimen tapi mereka lebih rendah. Dalam
determine the positive or negative orientation (Kim dan Hovy, 2004), digunakan untuk
for each adjective, adverb, noun and verb. To mengidentifikasi beberapa jenis tertentu dari
assign an orientation to each sentence, it used pendapat. Dalam (Nigam dan Hurst 2004),
the average log-likelihood scores of its words. Nigam dan Hurst menerapkan leksikon tertentu
Two thresholds were chosen using the training dan pendekatan NLP dangkal untuk menilai
data and applied to determine whether the orientasi sentimen kalimat.
sentence has a positive, negative, or neutral
orientation. The same problem was also studied 2.10. Naive Bayes Classifer (NBC)
in (Hatzivassiloglou and Wiebe, 2000)
considering gradable adjectives.” NBC merupakan salah satu algoritma
dalam teknik data mining yang menerapkan
Untuk klasifikasi sentimen kalimat teori Bayes dalam klasifikasi . Teorema
subjektif, Yu dan Hatzivassiloglou (2003) keputusan Bayes adalah adalah pendekatan
menggunakan metode yang sama dengan statistik yang fundamental dalam pengenalan
publikasi oleh Turney di tahun 2002, karya ini pola (pattern recoginition). Naive bayes
menggunakan set besar kata sifat utama. Selain didasarkan pada asumsi penyederhanaan bahwa
itu, alih-alih menggunakan Pointwise Mutual nilai atribut secara konditional saling bebas jika
Information (definisi atau titik informasi timbal diberikan nilai output. Dengan kata lain,
balik, adalah ukuran dari asosiasi yang diberikan nilai output, probabilitas mengamati
digunakan dalam teori informasi dan statistik. secara bersama adalah produk dari probabilitas
Berbeda dengan informasi mutual (MI) yang individu. Dengan memasukkan Persamaan 1 ke
dibangun berdasarkan PMI, mengacu pada Persamaan 2 akan diperoleh pendekatan yang
kejadian tunggal, sedangkan MI mengacu pada digunakan dalam NBC.
rata-rata dari semua peristiwa yang mungkin.),
karya ini menggunakan modifikasi log- 2.11. Decision Tree
likehood ratio untuk menentukan orientasi Decision tree merupakan salah satu
positif atau negatif untuk setiap kata sifat, kata metode klasifikasi yang menggunakan
keterangan, kata benda dan kata kerja. Untuk representasi struktur pohon (tree) di mana
menetapkan orientasi untuk setiap kalimat, setiap node merepresentasikan atribut,
digunakan skor log-kemungkinan rata-rata cabangnya merepresentasikan nilai dari atribut,
yang terdapat di kata-kata. Dua ambang dipilih dan daun merepresentasikan kelas. Node yang
menggunakan data pelatihan dan diterapkan paling atas dari decision tree disebut sebagai
untuk menentukan apakah kalimat memiliki root. Decision tree merupakan metode
orientasi positif, negatif, atau netral. Masalah klasifikasi yang paling populer digunakan.
Selain karena pembangunannya relatif cepat,
44
hasil dari model yang dibangun mudah untuk

dipahami.
Pada decision tree terdapat 3 jenis node, yaitu:
a. Root Node, merupakan node paling atas,

pada node ini tidak ada input dan bisa tidak
mempunyai output atau mempunyai output
lebih dari satu.
b. Internal Node , merupakan node

percabangan, pada node ini hanya terdapat
satu input dan mempunyai output minimal
dua.
c. Leaf node atau terminal node , merupakan

node akhir, pada node ini hanya terdapat
satu input dan tidak mempunyai output.
3. METODE PENELITIAN
3.1. Teknik Pengumpulan Data Gambar 3.2 Tahapan Text Mining

dengan Naive Bayes
Dalam penelitian ini data yang
digunakan adalah data sekunder dari komentar a) Decision Tree
– komentar yang diambil dari
http://TripAdvisor.co.id/. Struktur sederhana dan dapat ditafsirkan
memungkinkan decision tree untuk
3.2. Metode dan Teknik Pengumpulan memecahkan masalah atribut multi-type.
Data Decision tree juga dapat mengelola nilai-nilai
yang hilang atau data noise (Dua & Xian,
Naive Bayes 2011).
Gambar 3.1 Rumus dasar dari Naive Bayes

Gambar 3.3 Contoh Struktur Decision Tree
Tahapan proses klasifikasi opini
dengan NBC ditunjukan dalam diagram seperti Gambar 3.3 Contoh Struktur Decision
berikut : Tree Sumber: Dua & Xian, 2011 Membangun
klasifikasi dengan Decision Tree melalui
beberapa tahapan sebagai berikut (Larose,
2005):
a. Pertama siapkan data training yang

biasanya diambil dari data histori atau data
masa lampau yang kemudian dibuat ke
dalam kelas-kelas tertentu.
b. Menghitung nilai entropy yang akan
digunakan untuk menghitung nilai gain dari
45
masing-masing atribut sehingga diperoleh 4.1. Jakarta Utara

atribut dengan nilai gain yang tertinggi yang
selanjutnya akan digunakan menjadi akar Decision Tree ini menghasilkan suatu
pohon. Entropy adalah suatu parameter angka yang bisa dijadikan batasan untuk
untuk mengukur tingkat keberagaman standar deviasinya, khususnya untuk Detected
(heterogenitas) dari kumpulan data. Rumus Sentiment pada hasil perhitungan Naive Bayes.
menghitung entropy dan gain seperti yang Bisa disimpulkan bahwa tamu yang menginap
ditunjukkan dalam persamaan (1) dan (2). di hotel-hotel daerah Jakarta Utara berada di
taraf puas karena memiliki nilai 70,2% untuk
( )=∑ − . . (1) sentimen positifnya dari hasil perhitungan
menggunakan algoritma Naive Bayes.
Gambar 3=.4 Rumus Menghitung Entropy Sedangkan untuk nilai batas bawah dan batas
atas pada Document Sentiment kali ini
Keterangan: mencapai -0,057 < x < 0,221 dengan
S= Himpunan kasus menggunakan metode Decision Tree.
n = jumlah partisi S
Pi = proporsi Si terhadap S Naive Decision Memenuhi
Sentiment
Bayes Tree Syarat?
Positive 0,476 >0 ,221 Yes
( , )= ( )
Negative - 0,233 - < 0,057 Yes
− ( )
Neutral 0,008 > 0,221 No
Gambar 3.5 Rumus Menghitung Gain
Keterangan:
S = Himpunan Kasus 4.2. Jakarta Pusat
A = Fitur
n = jumlah partisi atribut A Tamu yang menginap di hotel-hotel
|Si| = Proporsi Si terhadap S daerah Jakarta Pusat berada di taraf sangat puas
|S| = jumlah kasus dalam S karena memiliki nilai 80,7% untuk sentimen
positifnya dari hasil perhitungan menggunakan
c. Ulangi terus langkah sebelumnya yaitu algoritma Naive Bayes. Sedangkan untuk nilai
menghitung nilai tiap atribut berdasarkan batas bawah dan batas atas pada Document
nilai gain yang tertinggi hingga semua Sentiment kali ini mencapai -0,035 < x < 0,220
record terpartisi. dengan menggunakan metode Decision Tree.
d. Proses dari Decision Tree ini akan berhenti Berikut tabel perbandingannya :
jika semua record dalam simpul N mendapat
Naive Decision Memenuhi
kelas yang sama, tidak ada atribut di dalam Sentiment
Bayes Tree Syarat?
record yang dipartisi lagi, dan tidak ada
record di dalam cabang yang kosong. Positive 0,469 >0 ,220 Yes
Negative - 0,162 < - 0,035 Yes
4. ANALISIS DAN PEMBAHASAN
Neutral 0,125 < 0,220 Yes
Pembahasan ini dibuat berdasarkan tahapan
dan proses yang terdiri dari :
1. Input Data dari Tripadvisor.co.id ke dalam
4.3. Jakarta Timur
tabel
2. Penerapan Text Processing Tamu yang menginap di hotel-hotel
3. Pengujian Data dengan metode Naive daerah Jakarta Timur berada di taraf yang biasa
Bayes dan Decision Tree saja karena memiliki nilai 65,1% untuk
4. Hasil Uji dari metode Naive Bayes dan sentimen positifnya dari hasil perhitungan
Decision Tree menggunakan algoritma Naive Bayes.
5. Rancangan Prototype Graphical User Sedangkan untuk nilai batas bawah dan batas
Interface berbasis Web atas pada Document Sentiment kali ini
46
mencapai -0,008 < x < 0,215 dengan Hotel – hotel di daerah Jakarta Barat ini
menggunakan metode Decision Tree memiliki tingkat kepuasan yang cukup karena
sentimen postifnya berada di angka 65%, lebih
Naive Decision Memenuhi rendah sedikit dari Jakarta Timur yang meraih
Sentiment
Bayes Tree Syarat? sentimen positif sebesar 65,1%.
Positive 0,451 > 0 ,215 Yes
Naive Decision Memenuhi
Negative - 0,241 < - 0,008 Yes Sentiment
Bayes Tree Syarat?
Neutral 0,121 < 0,215 Yes Positive 0,459 > 0,209 Yes
<-
4.4. Jakarta Selatan Negative - 0,190 Yes
0,050
Nilai batas bawah dan batas atas pada Neutral 0,084 < 0,209 No
Document Sentiment kali ini mencapai -0,068 <
x < 0,222 dengan menggunakan metode 4.6. Graphical User Interface
Decision Tree. Bisa dikatakan bahwa Hotel –
hotel di daerah Jakarta Selatan ini memiliki Penulis mengimplentasikan hasil
tingkat kepuasan yang tersebut kedalam GUI dengan menggunakan
bootstrap. Bootstrap merupakan framework
cukup karena sentimen postifnya berada di untuk membangun desain web secara responsif.
angka 63,8%, lebih rendah dari Jakarta Timur Artinya, tampilan web yang dibuat oleh
yang meraih sentimen positif sebesar 65,1%. bootstrap akan menyesuaikan ukuran layar dari
Naive Decision Memenuhi browser yang kita gunakan baik di desktop,
Sentiment tablet ataupun mobile device. Bootstrap
Bayes Tree Syarat?
merupakan framework untuk membangun
Positive 0,472 > 0 ,222 Yes desain web secara responsif. Artinya, tampilan
<- web yang dibuat oleh bootstrap akan
Negative - 0,287 Yes
0,068 menyesuaikan ukuran layar dari browser yang
Neutral 0,091 < 0,222 Yes kita gunakan baik di desktop, tablet ataupun
mobile device.
4.5. Jakarta Barat
Gambar 4.1 urutan yang memiliki sentimen positif

Hasil Sentimen dengan Bootstrap tertinggi adalah Jakarta Pusat (80,7%) lalu
Jakarta Utara (71,2%), Jakarta Timur
(65,1%), Jakarta Barat (65%) dan Jakarta
Selatan (63,8%).
2. Dengan hasil olahan Text Mining, komentar

tamu – tamu yang pernah menginap,
pengelola hotel dapat memastikan secara
cermat bagaimana kondisi penilaian
sebenarnya dari para tamu yang pernah
menginap.
5. SIMPULAN 6. REKOMENDASI
Berdasarkan analisis dan pembahasan Tentunya dalam pembuatan penelitian ini
sebagaimana yang tertulis pada bab IV ,maka peneliti ingin memberkan rekomendasi bagi
dapat disimpulkan sebagai berikut : peneliti berikutnya, yaitu:
1. Hasil olahan text mining berdasarkan 1. Peneliti berikutnya disarankan
klasifikasi sentimen, maka wilayah dengan melakukan olah Text Mining dengan
47
metode selain Naive Bayes yaitu dengan [10] Taylor & Francis Group. ISBN-13: 978-1-
metode Support Vector Machine dan 4398-3943-0
kNN.
[11] Davidov, D., Tsur, O., & Rappoport, A.
2. Untuk rancangan GUI bagi peneliti (2010, August). Enhanced sentiment
berikutnya, dapat menggunakan php learning using twitter hashtags and
murni yang dapat menampilkan hasilnya smileys. In Proceedings of the 23rd
tanpa bantuan tools RapidMiner, International Conference on
sehingga user dapat menegtahui Computational Linguistics: Posters (pp.
hasilnya. 241-249). Association for Computational
Linguistics.
3. Bagi peneliti berikutnya yang ingin [12] Dehaff, M. 2010. Sentiment Analysis,
melakukan penelitian di bidang text Hard But Worth It!. [Online]. Tersedia di:
mining, masih banyak tema – tema yang [13] http://www.customerthink.com/blog/s
belum dikaji khususnya terkait dengan entiment_analysis_hard_but_worth_it
kuliner atau objek wisata berikut fasilitas
yang berada di wilayah Jakarta Utara. [14] Han, Jiawei and Micheline Kamber
(2006), Data Mining: Concepts and
Techniques, 2nd ed., The Morgan
7. DAFTAR PUSTAKA Kaufmann Series in Data Management
Systems, Jim Gray, Series Editor
[1] Aston, N., Liddle, J., & Hu, W. (2014). [15] Hurst, M., and Nigam, K. (2004).
“Twitter Sentiment in Data Streams with Retrieving topical sentiments from online
Perceptron”, Journal of Computer and document collections. In Proceedings of
Communications, 2014. the 11th Conference on Document
[2] Asur, S., & Huberman, B. A. (2010, Recognition and Retrieval.
August). Predicting the future with social [16] Morgan Kaufmann Publishers, March
media. In Web Intelligence and Intelligent 2006. ISBN 1-55860-901-6
Agent Technology (WI-IAT), 2010 [17] Jason Jong (2011). Predicting Rating
IEEE/WIC/ACM International Conference with Sentiment Analysis .,
on (Vol. 1, pp. 492-499). IEEE. http://cs229.stanford.edu/proj2011/Jong%
[3] Berry, Michael Wand & Jacob Kogan 20PredictingRatingwithSentimentAnalysis
(2010), Text mining: applications and .pdf
theory [18] Kim, Soo-Min & Eduard Hovy (2004),
[4] John Wiley and Sons, Ltd Determining the Sentiment of Opinions,
Proceedings of the COLING conference,
[5] Bing Liu (2012). Sentiment Analysis and Geneva.
Opinion Mining, Morgan & Claypool [19] Laudon, Kenneth C., Jane P. Laudon
Publishers, May 2012. dan Ahmed Elragal (2012), Sistem
[6] Bollen, J., Mao, H., Zeng, X., (2011). Informasi Manajemen : Mengelola
Twitter mood predicts the stock market, Perusahaan Digital, Edisi ke-12,
Journal of Computational Science 2, pp.1- Jakarta:Salemba Empat.
8 [20] Larose, D. T. 2005. Discovering
[7] Bowo Prasetyo. “Mengenal RapidMiner : Knowledge in Data. New Jersey: John
Tool Open Source untuk Data Mining”, Willey & Sons, Inc. ISBN0-471-66657-2.
http://www.slideshare.net/bowoprasetyo/ra [21] Linus Philip Lawrence, Reliability of
pidminer. Sentiment Mining Tools: A comparison of
[8] Connolly, Thomas dan Carolyn Begg Semantria and Social Mention.,
(2014), Database Systems : Practical http://essay.utwente.nl/65302/
Approach to Design, Implementation, and [22] Markus Hofmann, Ralf Klinkenberg,
Management, Edisi ke-6, England:Addison “RapidMiner: Data Mining Use Cases and
Wesley. Business Analytics Applications (Chapman
[9] Dua, S. & Xian Du. 2011. Data Mining and & Hall/CRC Data Mining and Knowledge
Machine Learning in Cybersecurity. USA: Discovery Series),” CRC Press, October
25, 2013.
48
[23] O’Brien, James A. (2010), Pengantar

Sistem Informasi : Perspektif Bisnis dan
Manajerial, Edisi ke-12, Jakarta : Salemba
Empat.
[24] Sani Susanto dan Dedy Suryadi (2010),
Pengantar Data Mining : Menggali
Pengetahuan Dari Bongkahan Data,
Yogyakarta:Penerbit Andi Ofset
Yogyakarta.
[25] Sanger, James and Ronen Feldman,
(2006), The Text Mining Handbook:
Advanced Approaches in Analyzing
Unstructured Data, Cambridge University
Press, Dec 11, 2006
[26] Saraswati, Ni Wayan Sumartini.
(2011), “Text Mining dengan Metode Naive
Bayes Classifier dan Support Vector
Machines untuk Sentiment Analysis”, Tesis
Program Pascasarjana Universitas
Udayana, Denpasar.
[27] Sharda, Ramesh., Dursun Delen dan
Efraim Turban. (2014), Business
Intelegence : “A Managerial Perspective
on Analytics”, Third Edition : Pearson
[28] Tala, F. Z. (2003). A Study of Stemming
Effects on Information Retrieval in Bahasa
Indonesia. M.S. thesis. M.Sc. Thesis.
Master of Logic Project. Institute for Logic,
Language and Computation. Universiteti
van Amsterdam The Netherlands
[29] Turney, P. (2002) Thumps up or
thumbs down? Semantic orientation
applied to unsupervisedclassification of
reviews. In Proceedings of the 40th Annual
Meeting of the Association for
Computational Linguistics
[30] Yu, H., and Hatzivassiloglou, V.
(2003) Towards answering opinion
questions: Separating facts from opinions
and identifying the polarity of opinion
sentences. In Proceedings of the
Conference on Empirical Methods in
Natural Language Processing (EMNLP-
03).
49

Analisis Testimonial Wisatawan Menggunakan Text Mining Dengan Metode Naive Bayes Dan Decision Tree, Studi Kasus Pada Hotel - Hotel Di Jakarta

Uploaded by

Document Informationclick to expand document information

Copyright:

Available Formats

Analisis Testimonial Wisatawan Menggunakan Text Mining Dengan Metode Naive Bayes Dan Decision Tree, Studi Kasus Pada Hotel - Hotel Di Jakarta

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis Testimonial Wisatawan Menggunakan Text Mining Dengan Metode Naive Bayes Dan Decision Tree, Studi Kasus Pada Hotel - Hotel Di Jakarta

Uploaded by

Copyright:

Available Formats

Jurnal Informatika dan Bisnis

ANALISIS TESTIMONIAL WISATAWAN MENGGUNAKAN TEXT MINING

Yonathan Sunoto1) dan Budi Wasito2)

Key Words: Tags, Text Processing, Tokenizing, Filtering, RapidMiner

1. PENDAHULUAN secara perorangan, kelompok, atau organisasi.

publik di Internet disebut pula sebagai World information retrival .

2.2. Data 2. Pengurutan (Sequences)

Data adalah kumpulan fakta mentah Di dalam pengurutan, kejadian-kejadian

Menurut [3] dalam data mining ada pola- 4. Cluster Analysis

Diskriminasi data adalah perbandingan

2. Mining Frequent Patterns, Associations,

a. Frequent Patterns Gambar 1.1. Process Mining

b. Associations 2.8. Text Mining

2. Filtering Pendekatan manual Text Mining secara

(1) Deteksi Flame (rants buruk)

d. Sentences Sentiment Classification

Jika kalimat diklasifikasikan sebagai

hasil dari model yang dibangun mudah untuk

Pada decision tree terdapat 3 jenis node, yaitu:

a. Root Node, merupakan node paling atas,

b. Internal Node , merupakan node

c. Leaf node atau terminal node , merupakan

3.1. Teknik Pengumpulan Data Gambar 3.2 Tahapan Text Mining

Gambar 3.1 Rumus dasar dari Naive Bayes

a. Pertama siapkan data training yang

masing-masing atribut sehingga diperoleh 4.1. Jakarta Utara

Gambar 4.1 urutan yang memiliki sentimen positif

2. Dengan hasil olahan Text Mining, komentar

[23] O’Brien, James A. (2010), Pengantar

You might also like