Bab 2 NLP
Bab 2 NLP
BAB II
LANDASAN TEORI
tempat terbaik dokumen yang baru diinputkan ke dalam sistem. Hal ini sangat berguna
pada aplikasi spam filtering, news article classification, dan movie review.
2.3 Preprocessing
Preprocessing merupakan tahapan awal dalam mengolah data input sebelum memasuki
proses tahapan utama. Preprocessing terdiri dari beberapa tahapan. Adapun tahapan
preprocessing berdasarkan (Triawati & Chandra, 2009), yaitu: case folding, tokenizing /
parsing, filtering, stemming. Berikut penjelasan empat tahapan dalam proses preprocessing
adalah sebagai berikut:
a. Case Folding
Case folding merupakan tahapan yang mengubah semua huruf dalam dokumen
menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain
huruf dihilangkan dan dianggap delimiter (pembatas) (Triawati & Chandra, 2009).
b. Tokenizing
Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap
kata yang menyusunnya (Triawati & Chandra, 2009). Selain itu, spasi digunakan untuk
memisahkan antar kata tersebut.
c. Filtering
Tahap filtering adalah tahap mengambil kata - kata penting dari hasil tokenizing.
Proses filtering dapat menggunakan algoritma stoplist (membuang kata yang kurang
penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata
yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh
stopword adalah “yang”, “dan”, “di”, “dari” dan lain – lain (Triawati & Chandra, 2009).
d. Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem IR yang
mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root
word) dengan menggunakan aturan-aturan tertentu. Stemming kebanyakan digunakan
pada teks berbahasa inggris dikarenakan teks berbahasa inggris memiliki struktur
imbuhan yang tetap dan mudah untuk diolah sementara stemming untuk proses bahasa
Indonesia memiliki struktur imbuhan yang rumit / kompleks sehingga agak lebih susah
untuk diolah.
2.4 Twitter
Twitter adalah sebuah sosial media yang menawarkan layanan microblogging yang
memungkinkan pengguna mengirimkan tweet atau kicauan dibatasi sebanyak 140 karakter
dan membaca tweet pengguna lain. Twitter banyak dimanfaatkan oleh penggunanya sebagai
media
4
mengutarakan pendapat, berjualan produk, mengkampanyekan seuatu, dsb (Hilal, 2016). Ada
beberapa karakteristik yang dimiliki oleh Twitter antara lain:
a. Length
Panjang maksimum pesan Twitter adalah 140 karakter. Rata rata tweet yang sering
ditemukan adalah sepanjang 14 sampai 78 karakter.
b. Data availability
Dengan Twitter Aplication Programming Interface (API) yang dimiliki, sangat
mudah untuk mengumpulkan jutaan tweet untuk data set pelatihan.
c. Language model
Memposting pesan dari berbagai macam media yang berbeda dapat dilakukan oleh
pengguna Twitter. Hal ini memungkinkan frekuensi salah eja dan bahasa gaul di tweet
jauh lebih tinggi daripada media lain.
d. Domain
Pengguna Twitter dapat memposting pesan tweet tentang beragam topik, tidak
seperti media lain yang dirancang untuk topik tertentu.
Distance merupakan metode dalam menghitung nilai yang didapat dari hasil operasi
modifikasi satu kata dengan kata yang lain dengan bantuan matrix. Cara yang digunakan
adalah dengan melihat satu persatu karakter dengan karakter lainya, apakah untuk menutupi
perbedaan tersebut perlu adanya penambahan huruf, penghapusan huruf, atau penyisipan
huruf. Dengan menggunakan fungsi matrix (m,n) dimana M mewakili kata yang
dibandingkan, sedangkan N sebagai pembanding yang masing masing mewakili setiap huruf
sehingga dapat lebih mudah melihat operasi apa yang perlu dilakukan untuk kata tersebut.
Nilai yang akan didapat adalah seberapa banyak langkah yang diselesaikan untuk
mendapatkan kemiripan kata. Total angka untuk setiap operasinya mengacu kepada distance,
dimana semakin kecil distance semakin besar kemungkinan kata sesuai dengan target kata.
Terdapat tiga macam operasi yang dapat dilakukan oleh algoritma ini yaitu:
a. Operasi pengubah karakter
Operasi pengubahan karakter merupakan operasi menukar sebuah karakter dengan
karakter lain contohnya penulis menuliskan string “yamg” menjadi “yang”. Dalam kasus
ini karakter “m” diganti dengan huruf “n”.
b. Operasi penambahan karakter
Operasi penambahan karakter berarti enambahkan karakter ke dalam suatu string.
Contohnya string “kepad” menjadi string “kepada”, dilakukan penambahan karakter “a”
di akhir string. Penambahan karakter tidak hanya dilakukan di akhir kata, namun bias
ditambahkan diawal maupun disisipkan di tengah string.
c. Operasi penghapusan karakter
Operasi penghapusan karakter dilakukan untuk menghilangkan karakter dari suatu
string. Contohnya string “barur” karakter terakhir dihilangkan sehingga menjadi string
“baru”. Pada operasi ini dilakukan penghapusan karakter “r”.
Operasi operasi yang dilakukan tersebut dapat dilihat pada persamaan ( 3.1 ).
Dista,b((i, j — 1) + 1) = Min
Dista,b(i, j) = Dista,b((i — 1, j) + 1) = Min
Min Dista,b((i — 1, j — 1) + 1(ai*bj)) =
( 2.1 )
Min
6
Keterangan:
a = string pertama
b = string kedua
i = iterasi string pertama
j = iterasi string kedua
Dist = jarak