04 - Text Preprocessing - Data Structure
04 - Text Preprocessing - Data Structure
Text
Preprocessing &
Data Structure
OUTLINE
1. Text Preprocessing
2. Data Structure
2
1.
Text Preprocessing
Text Preprocessing
A. Tokenization
B. Stopwords Removal
C. Normalization
D. Stemming and Lemmatization
4
A. Tokenization
▪ Proses penguraian deskripsi yang semula
berupa kalimat menjadi kata-kata.
▪ Menghilangkan delimeter sperti tanda titik,
koma, spasi dan karakter angka yang ada
pada kalimat tersebut.
5
B. Stopwords Removal
▪ Stopword adalah kosakata yang bukan
merupakan ciri (kata unik) dari sebuah
dokumen.
▪ Contoh: “dan”, “di”, “pada”, “oleh”, “yang”, dll.
▪ Kata-kata tersebut akan dihilangkan.
▪ Sebelum proses penghapusan stopword,
dibuat sebuah daftar stopword (stoplist).
Jika kata termasuk dalam stoplist, maka
kata tersebut dihapus.
6
C. Normalization
▪ Case-Folding: mengubah huruf menjadi
lower case.
▪ Truecasing: menggunakan sequence model
machine learning yang dapat membuat
decision kapan harus menggunakan
case-folding.
7
D. Stemming and Lemmatization
▪ Stemming adalah mengubah kata-kata
dalam dokumen menjadi ke bentuk
dasarnya.
▫ Tertawa = tawa
▫ Menyapu = sapu
▪ Menghilangkan semua imbuhan (afiks) baik
yang terdiri dari awalan (prefiks) sisipan
(infiks) maupun akhiran (sufiks) dan
kombinasi dari awalan dan akhiran (konfiks).
8
Stemming Algorithm
▪ Porter Stemming Algorithm
▪ Nazief and Adriani Algorithm
9
2.
Data Structure
Data Structure
A. Inverted File Structure
B. N-Gram Data Structure
C. Hypertext Data Structure
D. XML Data Structure
11
A. Inverted File Structure
▪ Struktur data utama pada sistem IR.
▪ Pemetaan antara term dan lokasi
kemunculannya pada sebuah koleksi
teks/dokumen.
▪ Inverted index: index yang memetakan
keyword ke daftar dokumen.
▪ Dictionary: sekumpulan term/keyword.
▪ Posting list: daftar dokumen yang
diasosiasikan dengan keyword.
12
N-Gram Data Structure
▪ Dapat dilihat sebagai teknik spesial untuk
stemming.
▪ Serangkaian “n” buah karakter dengan
jumlah “n” tetap.
▪ bi-gram, tri-gram, penta-gram.
▪ Tidak seperti stemming yang mencari asal
dari sebuah kata secara semantik, n-gram
tidak peduli dengan semantik.
13
N-Gram Data Structure
▪ N-gram dari “sea colony”
14
N-Gram Data Structure
▪ Simbol “#” melambangkan simbol-simbol
yang ada diantara kata (spasi, koma, titik
koma, dan lainnya).
▪ Setiap n-gram yang dihasilkan menjadi
sebuah token dan bisa dicari (masuk proses
pencarian).
▪
15
Hypertext Data Structures
▪ Hypertext Markup Language (HTML)
mendefinisi struktur internal untuk
pertukaran informasi melalui World Wide
Web.
▪ Dokumen terdiri dari text dan HTML tags
yang mendeskripsikan cara menampilkan
dokumen (<title>, <strong>)
▪ Hypertext memiliki struktur graph
non-sekuensial, dimana setiap node
memiliki informasinya sendiri.
16
Hypertext Data Structures
▪ Dalam lingkungan Hypertext, pengguna
bernavigasi di jaringan node dengan
mengikuti links.
17
XML Data Structure
▪ eXtensible Markup Language (XML) telah
menjadi data struktur standar dalam web.
▪ Penggunanya dapat membuat tag sendiri
yang diperlukan untuk mendeskripsikan
struktur datanya.
18
Tugas 4
1. Jelaskan tentang algoritma stemming Confix
Stripping (CS)! Sertakan juga contoh
sederhana penggunaannya.
2. Bandingkanlah beberapa algoritma
stemming yang kalian ketahui (cantumkan
juga kelebihan dan kekurangannya), minimal
3 algoritma!
3. Jika kalian ingin mengambil informasi dari
tweet-tweet akun di Twitter, jelaskan
langkah text processing apa saja yang harus
kalian lakukan!
19
THANKS!
Any questions?
TUGAS4-STKI-Kelompok[no]
Rabu, 7 Maret 2018, 24:00
20