Text Preprocessing
Text Preprocessing
A11.2013.07912
Text Preprocessing
A. Text Mining
Proses menganalisis data yang berupa teks guna mencari kata kata yang dapat mewakili isi
dari dokumen. Berdasarkan ketidakteraturannya struktur data teks, maka text mining
memerlukan tahapan awal, yaitu tahap text preprocessing guna mengubah teks lebih
terstruktur.
C. Tahap Preprocessing
Case Folding
Tokenizing
Filtering
Steamming
a. Case Folding
Mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (huruf
kecil / lowercase).
Kata Case Folding
Kelphin
A11.2013.07912
KOMPUTER komputer
KOMPOTER komputer
KomPUter komputer
Computer komputer
Karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata.
Namun untuk karakter petik tunggal (), titik (.), semikolon (;), titk dua (:) atau lainnya,
dapat memiliki peran yang cukup banyak sebagai pemisah kata.
c. Filtering
Tahap mengambil kata kata penting dari hasil token. Kata yang, di, dari, dan
seterusnya. Beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan
hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini
dapat mengurangi ukuran index dan waktu pemrosesan.
Token Filtering
kota kota
Kelphin
A11.2013.07912
malang malang
adalah
penghasil penghasil
buah buah
terbesar terbesar
di
indonesia indonesia
d. Steamming
Pengelompokkan kata-kata lain yang memiliki kata dasar
Filtering Steamming
kota kota
malang malang
penghasil hasil
buah buah
terbesar besar
indonesia indonesia
Kelphin
A11.2013.07912
Sumber