Text Pre Processing v2 1
Text Pre Processing v2 1
M Ali Fauzi
Indriati
Sigit Adinugroho
Latar Belakang
Latar Belakang
Algoritma stoplist
Stoplist atau stopword adalah kata-
kata yang tidak deskriptif (tidak
penting) yang dapat dibuang dengan
pendekatan bag-of-words.
Stopword Removal : Metode
Algoritma stoplist
Stoplist atau stopword adalah kata-
kata yang tidak deskriptif (tidak
penting) yang dapat dibuang dengan
pendekatan bag-of-words.
Stopword Removal : Metode
Algoritma stoplist
Kita memiliki database kumpulan kata-
kata yang tidak deskriptif (tidak
penting), kemudian kalau hasil
tokenisasi itu ada yang merupakan kata
tidak penting dalam database tersebut,
maka hasil tokenisasi itu dibuang.
Stopword Removal : Metode
Algoritma stoplist
Contoh stopwords adalah i’m, you,
one, two, they, are, to, the, in, dst.
Stopword Removal : Metode
Algoritma stoplist
Contoh stopwords adalah sekarang,
saya, sedang, adalah dst.
Stopword Removal- : Metode
Token Filtering
sekarang
saya -
sedang -
suka suka
memasak memasak
masakan masakan
kesukaan kesukaan
saya -
sekarang -
adalah -
nasi nasi
goring goreng
cara -
memasak memasak
nasi nasi
goreng goreng
adalah -
nasi nasi
digoreng digoreng
Stopword Removal : Metode
Algoritma wordlist
Wordlist adalah kata-kata yang
deskriptif (penting) yang harus disimpan
dan tidak dibuang dengan pendekatan
bag-of-words.
Stopword Removal : Metode
Algoritma wordlist
Wordlist adalah kata-kata yang
deskriptif (penting) yang harus
disimpan dan tidak dibuang dengan
pendekatan bag-of-words.
Stopword Removal : Metode
Algoritma wordlist
Kita memiliki database kumpulan kata-
kata yang deskriptif (penting),
kemudian kalau hasil tokenisasi itu ada
yang merupakan kata penting dalam
database tersebut, maka hasil tokenisasi
itu disimpan.
Stopword Removal : Metode
Algoritma wordlist
Contoh wordlist adalah applied, words,
texts, dst.
Stopword Removal : Metode
Algoritma wordlist
Contoh wordlist adalah suka, memasak,
masakan, dst.
Stopword Removal- : Metode
Token Filtering
sekarang
saya -
sedang -
suka suka
memasak memasak
masakan masakan
kesukaan kesukaan
saya -
sekarang -
adalah -
nasi nasi
goring goreng
cara -
memasak memasak
nasi nasi
goreng goreng
adalah -
nasi nasi
digoreng digoreng
Using Stop Words or Not?
Langkah
sekarang 5 :- Stemming -
saya - -
sedang - -
suka suka suka
memasak memasak masak
masakan masakan masak
kesukaan kesukaan suka
saya - -
sekarang - -
adalah - -
nasi nasi nasi
goreng goreng goreng
cara
memasak memasak masak
nasi nasi nasi
goreng goreng goreng
adalah - -
nasi nasi nasi
digoreng digoreng goreng
Langkah 5 : Stemming
Algorithmic
Stemming : Metode
Metode Algorithmic
Kelebihan : relatif cepat
Kekurangan : beberapa algoritma
terkadang salah mendeteksi imbuhan,
sehingga ada beberapa kata yang
bukan imbuhan tapi dihilangkan
Contoh : makan -> mak; an dideteksi
sebagai akhiran sehingga dibuang.
Stemming : Metode
Metode Algorithmic
Kelebihan : relatif cepat
Kekurangan : beberapa algoritma
terkadang salah mendeteksi imbuhan,
sehingga ada beberapa kata yang
bukan imbuhan tapi dihilangkan
Contoh : makan -> mak; an dideteksi
sebagai akhiran sehingga dibuang.
Stemming : Metode
Metode Algorithmic
Kelebihan : relatif cepat
Kekurangan : beberapa algoritma
terkadang salah mendeteksi imbuhan,
sehingga ada beberapa kata yang
bukan imbuhan tapi dihilangkan
Contoh : makan -> mak; an dideteksi
sebagai akhiran sehingga dibuang.
Stemming : Metode
Metode Lemmatization
Lemmatization : Stemming berdasarkan
kamus
Menggunakan vocabulary dan
morphological analysis dari kata untuk
menghilangkan imbuhan dan
dikembalikan ke bentuk dasar dari kata.
Stemming : Metode
Metode Lemmatization
Lemmatization : Stemming berdasarkan
kamus
Menggunakan vocabulary dan
morphological analysis dari kata untuk
menghilangkan imbuhan dan
dikembalikan ke bentuk dasar dari kata.
Stemming : Metode
Metode Lemmatization
Stemming ini bagus untuk kata-kata
yang mengalami perubahan tidak
beraturan (terutama dalam english)
Contoh : “see” -> “see”, “saw”, atau
“seen”
Jika ada kata “see”, “saw”, atau “seen”,
bisa dikembalikan ke bentuk aslinya yaitu
“see”
Stemming : Metode
Metode Lemmatization
Stemming ini bagus untuk kata-kata
yang mengalami perubahan tidak
beraturan (terutama dalam english)
Contoh : “see” -> “see”, “saw”, atau
“seen”
Jika ada kata “see”, “saw”, atau
“seen”, bisa dikembalikan ke bentuk
aslinya yaitu “see”
Stemming : Metode
Langkah
Token
sekarang -
5 : Stemming
Filtering Stemming
-
Type
-
Term
-
saya - - - -
sedang - - - -
suka suka suka suka suka
memasak memasak masak masak masak
masakan masakan masak - -
kesukaan kesukaan suka - -
saya - - - -
sekarang - - - -
adalah - - - -
nasi nasi nasi nasi nasi
goreng goreng goreng goreng goreng
cara - - - -
memasak memasak masak - -
nasi nasi nasi - -
goreng goreng goreng - -
adalah - - - -
nasi nasi nasi - -
digoreng digoreng goreng - -
Latihan