0% menganggap dokumen ini bermanfaat (0 suara)
81 tayangan

04 - Text Preprocessing - Data Structure

Dokumen tersebut membahas tentang sistem temu kembali informasi yang meliputi preprocessing teks dan struktur data. Preprocessing teks mencakup tokenisasi, penghapusan kata tidak penting, normalisasi, dan stemming/lemmatisasi. Sedangkan struktur data yang dijelaskan adalah inverted file structure, n-gram data structure, hypertext data structure, dan XML data structure.

Diunggah oleh

AuliaRamadhana
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
81 tayangan

04 - Text Preprocessing - Data Structure

Dokumen tersebut membahas tentang sistem temu kembali informasi yang meliputi preprocessing teks dan struktur data. Preprocessing teks mencakup tokenisasi, penghapusan kata tidak penting, normalisasi, dan stemming/lemmatisasi. Sedangkan struktur data yang dijelaskan adalah inverted file structure, n-gram data structure, hypertext data structure, dan XML data structure.

Diunggah oleh

AuliaRamadhana
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 20

SISTEM TEMU KEMBALI INFORMASI:

Text
Preprocessing &
Data Structure
OUTLINE
1. Text Preprocessing
2. Data Structure

2
1.
Text Preprocessing
Text Preprocessing
A. Tokenization
B. Stopwords Removal
C. Normalization
D. Stemming and Lemmatization

4
A. Tokenization
▪ Proses penguraian deskripsi yang semula
berupa kalimat menjadi kata-kata.
▪ Menghilangkan delimeter sperti tanda titik,
koma, spasi dan karakter angka yang ada
pada kalimat tersebut.

5
B. Stopwords Removal
▪ Stopword adalah kosakata yang bukan
merupakan ciri (kata unik) dari sebuah
dokumen.
▪ Contoh: “dan”, “di”, “pada”, “oleh”, “yang”, dll.
▪ Kata-kata tersebut akan dihilangkan.
▪ Sebelum proses penghapusan stopword,
dibuat sebuah daftar stopword (stoplist).
Jika kata termasuk dalam stoplist, maka
kata tersebut dihapus.

6
C. Normalization
▪ Case-Folding: mengubah huruf menjadi
lower case.
▪ Truecasing: menggunakan sequence model
machine learning yang dapat membuat
decision kapan harus menggunakan
case-folding.

7
D. Stemming and Lemmatization
▪ Stemming adalah mengubah kata-kata
dalam dokumen menjadi ke bentuk
dasarnya.
▫ Tertawa = tawa
▫ Menyapu = sapu
▪ Menghilangkan semua imbuhan (afiks) baik
yang terdiri dari awalan (prefiks) sisipan
(infiks) maupun akhiran (sufiks) dan
kombinasi dari awalan dan akhiran (konfiks).

8
Stemming Algorithm
▪ Porter Stemming Algorithm
▪ Nazief and Adriani Algorithm

9
2.
Data Structure
Data Structure
A. Inverted File Structure
B. N-Gram Data Structure
C. Hypertext Data Structure
D. XML Data Structure

11
A. Inverted File Structure
▪ Struktur data utama pada sistem IR.
▪ Pemetaan antara term dan lokasi
kemunculannya pada sebuah koleksi
teks/dokumen.
▪ Inverted index: index yang memetakan
keyword ke daftar dokumen.
▪ Dictionary: sekumpulan term/keyword.
▪ Posting list: daftar dokumen yang
diasosiasikan dengan keyword.

12
N-Gram Data Structure
▪ Dapat dilihat sebagai teknik spesial untuk
stemming.
▪ Serangkaian “n” buah karakter dengan
jumlah “n” tetap.
▪ bi-gram, tri-gram, penta-gram.
▪ Tidak seperti stemming yang mencari asal
dari sebuah kata secara semantik, n-gram
tidak peduli dengan semantik.

13
N-Gram Data Structure
▪ N-gram dari “sea colony”

14
N-Gram Data Structure
▪ Simbol “#” melambangkan simbol-simbol
yang ada diantara kata (spasi, koma, titik
koma, dan lainnya).
▪ Setiap n-gram yang dihasilkan menjadi
sebuah token dan bisa dicari (masuk proses
pencarian).

15
Hypertext Data Structures
▪ Hypertext Markup Language (HTML)
mendefinisi struktur internal untuk
pertukaran informasi melalui World Wide
Web.
▪ Dokumen terdiri dari text dan HTML tags
yang mendeskripsikan cara menampilkan
dokumen (<title>, <strong>)
▪ Hypertext memiliki struktur graph
non-sekuensial, dimana setiap node
memiliki informasinya sendiri.

16
Hypertext Data Structures
▪ Dalam lingkungan Hypertext, pengguna
bernavigasi di jaringan node dengan
mengikuti links.

17
XML Data Structure
▪ eXtensible Markup Language (XML) telah
menjadi data struktur standar dalam web.
▪ Penggunanya dapat membuat tag sendiri
yang diperlukan untuk mendeskripsikan
struktur datanya.

18
Tugas 4
1. Jelaskan tentang algoritma stemming Confix
Stripping (CS)! Sertakan juga contoh
sederhana penggunaannya.
2. Bandingkanlah beberapa algoritma
stemming yang kalian ketahui (cantumkan
juga kelebihan dan kekurangannya), minimal
3 algoritma!
3. Jika kalian ingin mengambil informasi dari
tweet-tweet akun di Twitter, jelaskan
langkah text processing apa saja yang harus
kalian lakukan!
19
THANKS!
Any questions?

TUGAS4-STKI-Kelompok[no]
Rabu, 7 Maret 2018, 24:00

20

Anda mungkin juga menyukai