0% menganggap dokumen ini bermanfaat (0 suara)
108 tayangan20 halaman

04 - Text Preprocessing - Data Structure

Dokumen tersebut membahas tentang sistem temu kembali informasi yang meliputi preprocessing teks dan struktur data. Preprocessing teks mencakup tokenisasi, penghapusan kata tidak penting, normalisasi, dan stemming/lemmatisasi. Sedangkan struktur data yang dijelaskan adalah inverted file structure, n-gram data structure, hypertext data structure, dan XML data structure.

Diunggah oleh

AuliaRamadhana
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
108 tayangan20 halaman

04 - Text Preprocessing - Data Structure

Dokumen tersebut membahas tentang sistem temu kembali informasi yang meliputi preprocessing teks dan struktur data. Preprocessing teks mencakup tokenisasi, penghapusan kata tidak penting, normalisasi, dan stemming/lemmatisasi. Sedangkan struktur data yang dijelaskan adalah inverted file structure, n-gram data structure, hypertext data structure, dan XML data structure.

Diunggah oleh

AuliaRamadhana
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 20

SISTEM TEMU KEMBALI INFORMASI:

Text
Preprocessing &
Data Structure
OUTLINE
1. Text Preprocessing
2. Data Structure

2
1.
Text Preprocessing
Text Preprocessing
A. Tokenization
B. Stopwords Removal
C. Normalization
D. Stemming and Lemmatization

4
A. Tokenization
▪ Proses penguraian deskripsi yang semula
berupa kalimat menjadi kata-kata.
▪ Menghilangkan delimeter sperti tanda titik,
koma, spasi dan karakter angka yang ada
pada kalimat tersebut.

5
B. Stopwords Removal
▪ Stopword adalah kosakata yang bukan
merupakan ciri (kata unik) dari sebuah
dokumen.
▪ Contoh: “dan”, “di”, “pada”, “oleh”, “yang”, dll.
▪ Kata-kata tersebut akan dihilangkan.
▪ Sebelum proses penghapusan stopword,
dibuat sebuah daftar stopword (stoplist).
Jika kata termasuk dalam stoplist, maka
kata tersebut dihapus.

6
C. Normalization
▪ Case-Folding: mengubah huruf menjadi
lower case.
▪ Truecasing: menggunakan sequence model
machine learning yang dapat membuat
decision kapan harus menggunakan
case-folding.

7
D. Stemming and Lemmatization
▪ Stemming adalah mengubah kata-kata
dalam dokumen menjadi ke bentuk
dasarnya.
▫ Tertawa = tawa
▫ Menyapu = sapu
▪ Menghilangkan semua imbuhan (afiks) baik
yang terdiri dari awalan (prefiks) sisipan
(infiks) maupun akhiran (sufiks) dan
kombinasi dari awalan dan akhiran (konfiks).

8
Stemming Algorithm
▪ Porter Stemming Algorithm
▪ Nazief and Adriani Algorithm

9
2.
Data Structure
Data Structure
A. Inverted File Structure
B. N-Gram Data Structure
C. Hypertext Data Structure
D. XML Data Structure

11
A. Inverted File Structure
▪ Struktur data utama pada sistem IR.
▪ Pemetaan antara term dan lokasi
kemunculannya pada sebuah koleksi
teks/dokumen.
▪ Inverted index: index yang memetakan
keyword ke daftar dokumen.
▪ Dictionary: sekumpulan term/keyword.
▪ Posting list: daftar dokumen yang
diasosiasikan dengan keyword.

12
N-Gram Data Structure
▪ Dapat dilihat sebagai teknik spesial untuk
stemming.
▪ Serangkaian “n” buah karakter dengan
jumlah “n” tetap.
▪ bi-gram, tri-gram, penta-gram.
▪ Tidak seperti stemming yang mencari asal
dari sebuah kata secara semantik, n-gram
tidak peduli dengan semantik.

13
N-Gram Data Structure
▪ N-gram dari “sea colony”

14
N-Gram Data Structure
▪ Simbol “#” melambangkan simbol-simbol
yang ada diantara kata (spasi, koma, titik
koma, dan lainnya).
▪ Setiap n-gram yang dihasilkan menjadi
sebuah token dan bisa dicari (masuk proses
pencarian).

15
Hypertext Data Structures
▪ Hypertext Markup Language (HTML)
mendefinisi struktur internal untuk
pertukaran informasi melalui World Wide
Web.
▪ Dokumen terdiri dari text dan HTML tags
yang mendeskripsikan cara menampilkan
dokumen (<title>, <strong>)
▪ Hypertext memiliki struktur graph
non-sekuensial, dimana setiap node
memiliki informasinya sendiri.

16
Hypertext Data Structures
▪ Dalam lingkungan Hypertext, pengguna
bernavigasi di jaringan node dengan
mengikuti links.

17
XML Data Structure
▪ eXtensible Markup Language (XML) telah
menjadi data struktur standar dalam web.
▪ Penggunanya dapat membuat tag sendiri
yang diperlukan untuk mendeskripsikan
struktur datanya.

18
Tugas 4
1. Jelaskan tentang algoritma stemming Confix
Stripping (CS)! Sertakan juga contoh
sederhana penggunaannya.
2. Bandingkanlah beberapa algoritma
stemming yang kalian ketahui (cantumkan
juga kelebihan dan kekurangannya), minimal
3 algoritma!
3. Jika kalian ingin mengambil informasi dari
tweet-tweet akun di Twitter, jelaskan
langkah text processing apa saja yang harus
kalian lakukan!
19
THANKS!
Any questions?

TUGAS4-STKI-Kelompok[no]
Rabu, 7 Maret 2018, 24:00

20

Anda mungkin juga menyukai