04 - Text Preprocessing - Data Structure

Dokumen tersebut membahas tentang sistem temu kembali informasi yang meliputi preprocessing teks dan struktur data. Preprocessing teks mencakup tokenisasi, penghapusan kata tidak penting, normalisasi, dan stemming/lemmatisasi. Sedangkan struktur data yang dijelaskan adalah inverted file structure, n-gram data structure, hypertext data structure, dan XML data structure.

Diunggah oleh

AuliaRamadhana

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

108 tayangan20 halaman

04 - Text Preprocessing - Data Structure

Diunggah oleh

AuliaRamadhana

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 20

SISTEM TEMU KEMBALI INFORMASI:

Text
Preprocessing &
Data Structure
OUTLINE
1. Text Preprocessing
2. Data Structure

2
1.
Text Preprocessing
Text Preprocessing
A. Tokenization
B. Stopwords Removal
C. Normalization
D. Stemming and Lemmatization

4
A. Tokenization
▪ Proses penguraian deskripsi yang semula
berupa kalimat menjadi kata-kata.
▪ Menghilangkan delimeter sperti tanda titik,
koma, spasi dan karakter angka yang ada
pada kalimat tersebut.

5
B. Stopwords Removal
▪ Stopword adalah kosakata yang bukan
merupakan ciri (kata unik) dari sebuah
dokumen.
▪ Contoh: “dan”, “di”, “pada”, “oleh”, “yang”, dll.
▪ Kata-kata tersebut akan dihilangkan.
▪ Sebelum proses penghapusan stopword,
dibuat sebuah daftar stopword (stoplist).
Jika kata termasuk dalam stoplist, maka
kata tersebut dihapus.

6
C. Normalization
▪ Case-Folding: mengubah huruf menjadi
lower case.
▪ Truecasing: menggunakan sequence model
machine learning yang dapat membuat
decision kapan harus menggunakan
case-folding.

7
D. Stemming and Lemmatization
▪ Stemming adalah mengubah kata-kata
dalam dokumen menjadi ke bentuk
dasarnya.
▫ Tertawa = tawa
▫ Menyapu = sapu
▪ Menghilangkan semua imbuhan (afiks) baik
yang terdiri dari awalan (prefiks) sisipan
(infiks) maupun akhiran (sufiks) dan
kombinasi dari awalan dan akhiran (konfiks).

8
Stemming Algorithm
▪ Porter Stemming Algorithm
▪ Nazief and Adriani Algorithm

9
2.
Data Structure
Data Structure
A. Inverted File Structure
B. N-Gram Data Structure
C. Hypertext Data Structure
D. XML Data Structure

11
A. Inverted File Structure
▪ Struktur data utama pada sistem IR.
▪ Pemetaan antara term dan lokasi
kemunculannya pada sebuah koleksi
teks/dokumen.
▪ Inverted index: index yang memetakan
keyword ke daftar dokumen.
▪ Dictionary: sekumpulan term/keyword.
▪ Posting list: daftar dokumen yang
diasosiasikan dengan keyword.

12
N-Gram Data Structure
▪ Dapat dilihat sebagai teknik spesial untuk
stemming.
▪ Serangkaian “n” buah karakter dengan
jumlah “n” tetap.
▪ bi-gram, tri-gram, penta-gram.
▪ Tidak seperti stemming yang mencari asal
dari sebuah kata secara semantik, n-gram
tidak peduli dengan semantik.

13
N-Gram Data Structure
▪ N-gram dari “sea colony”

14
N-Gram Data Structure
▪ Simbol “#” melambangkan simbol-simbol
yang ada diantara kata (spasi, koma, titik
koma, dan lainnya).
▪ Setiap n-gram yang dihasilkan menjadi
sebuah token dan bisa dicari (masuk proses
pencarian).
▪

15
Hypertext Data Structures
▪ Hypertext Markup Language (HTML)
mendefinisi struktur internal untuk
pertukaran informasi melalui World Wide
Web.
▪ Dokumen terdiri dari text dan HTML tags
yang mendeskripsikan cara menampilkan
dokumen (<title>, <strong>)
▪ Hypertext memiliki struktur graph
non-sekuensial, dimana setiap node
memiliki informasinya sendiri.

16
Hypertext Data Structures
▪ Dalam lingkungan Hypertext, pengguna
bernavigasi di jaringan node dengan
mengikuti links.

17
XML Data Structure
▪ eXtensible Markup Language (XML) telah
menjadi data struktur standar dalam web.
▪ Penggunanya dapat membuat tag sendiri
yang diperlukan untuk mendeskripsikan
struktur datanya.

18
Tugas 4
1. Jelaskan tentang algoritma stemming Confix
Stripping (CS)! Sertakan juga contoh
sederhana penggunaannya.
2. Bandingkanlah beberapa algoritma
stemming yang kalian ketahui (cantumkan
juga kelebihan dan kekurangannya), minimal
3 algoritma!
3. Jika kalian ingin mengambil informasi dari
tweet-tweet akun di Twitter, jelaskan
langkah text processing apa saja yang harus
kalian lakukan!
19
THANKS!
Any questions?

TUGAS4-STKI-Kelompok[no]
Rabu, 7 Maret 2018, 24:00

Anda mungkin juga menyukai

Contoh Proposal TA D3
Belum ada peringkat
Contoh Proposal TA D3
13 halaman
Edit Text
Belum ada peringkat
Edit Text
138 halaman
Text Mining - 01
Belum ada peringkat
Text Mining - 01
55 halaman
Week#4 - Pemrosesan Teks
Belum ada peringkat
Week#4 - Pemrosesan Teks
36 halaman
1 Automata
Belum ada peringkat
1 Automata
34 halaman
Tugas Explorasi NLP - Information Extraction - 180411100069 - Rizki Nardianto
Belum ada peringkat
Tugas Explorasi NLP - Information Extraction - 180411100069 - Rizki Nardianto
47 halaman
Contoh Bab4
Belum ada peringkat
Contoh Bab4
38 halaman
Text Pre Processing v2
Belum ada peringkat
Text Pre Processing v2
82 halaman
2 3. Text Preprocessing (Parsing Lexical Stop Word Phrase Stemming Lemmatization
Belum ada peringkat
2 3. Text Preprocessing (Parsing Lexical Stop Word Phrase Stemming Lemmatization
46 halaman
Minggu 2 - PBA
Belum ada peringkat
Minggu 2 - PBA
25 halaman
Hyptertext and Hypermedia
Belum ada peringkat
Hyptertext and Hypermedia
32 halaman
Pertemuan 2 - Dokumen Preprocessing
Belum ada peringkat
Pertemuan 2 - Dokumen Preprocessing
62 halaman
AdeCandrawanZona Lpke7 PDF
100% (1)
AdeCandrawanZona Lpke7 PDF
16 halaman
Lecture 2
Belum ada peringkat
Lecture 2
28 halaman
Bab IV
Belum ada peringkat
Bab IV
22 halaman
Unikom - Bagas Hendrawan Putra - Bab 2
Belum ada peringkat
Unikom - Bagas Hendrawan Putra - Bab 2
38 halaman
TO - Teori Operasi Dasar String
Belum ada peringkat
TO - Teori Operasi Dasar String
29 halaman
Sidang Kompresif Paket A Universitas Gunadarma Pemrograman Web, Rekayasa Perangkat Lunak, Teori Bahasa Dan Automata
Belum ada peringkat
Sidang Kompresif Paket A Universitas Gunadarma Pemrograman Web, Rekayasa Perangkat Lunak, Teori Bahasa Dan Automata
13 halaman
Bab 3
Belum ada peringkat
Bab 3
17 halaman
Teknik Kompilasi
Belum ada peringkat
Teknik Kompilasi
52 halaman
Modul Text Mining
Belum ada peringkat
Modul Text Mining
9 halaman
Landasan Teori Bab 2
Belum ada peringkat
Landasan Teori Bab 2
15 halaman
Pertemuan 2.2 - Dokumen Preprocessing
Belum ada peringkat
Pertemuan 2.2 - Dokumen Preprocessing
62 halaman
Makalah Pemrosesan Teks
Belum ada peringkat
Makalah Pemrosesan Teks
14 halaman
Slide 3 Basic NLP Tools & Preprocessing Text
Belum ada peringkat
Slide 3 Basic NLP Tools & Preprocessing Text
33 halaman
Modul 4
Belum ada peringkat
Modul 4
21 halaman
3 - 115410081 - Bab Ii
Belum ada peringkat
3 - 115410081 - Bab Ii
8 halaman
ID Analisis Kandungan Logam Timbal Kadmium PDF
Belum ada peringkat
ID Analisis Kandungan Logam Timbal Kadmium PDF
6 halaman
Bab 2
Belum ada peringkat
Bab 2
16 halaman
Unikom - Muhammad Alfi - Bab 2
Belum ada peringkat
Unikom - Muhammad Alfi - Bab 2
15 halaman
Natural Language Processing 3
Belum ada peringkat
Natural Language Processing 3
18 halaman
Perancangan Dan Pembuatan Sistem Validasi XHTML
Belum ada peringkat
Perancangan Dan Pembuatan Sistem Validasi XHTML
6 halaman
Materi 2 - PRE PROCESSING DOKUMEN - P2
Belum ada peringkat
Materi 2 - PRE PROCESSING DOKUMEN - P2
17 halaman
Elshadai Mamuaya Tugas2 SDA
Belum ada peringkat
Elshadai Mamuaya Tugas2 SDA
3 halaman
Tugas Akhir - Ramadhani 211700001
Belum ada peringkat
Tugas Akhir - Ramadhani 211700001
5 halaman
Ujian Tengah Semester Struktur Data
Belum ada peringkat
Ujian Tengah Semester Struktur Data
24 halaman
4 NaturalLanguageProcessing KecerdasanBuatan KamalFadli 11180910000025
Belum ada peringkat
4 NaturalLanguageProcessing KecerdasanBuatan KamalFadli 11180910000025
25 halaman
Text Mining
Belum ada peringkat
Text Mining
28 halaman
Bab Ii - 2018309tif
Belum ada peringkat
Bab Ii - 2018309tif
19 halaman
Bab 2 NLP
Belum ada peringkat
Bab 2 NLP
8 halaman
Metode Algen
Belum ada peringkat
Metode Algen
41 halaman
ID Penerapan Algoritma Stemming Nazief Adri
Belum ada peringkat
ID Penerapan Algoritma Stemming Nazief Adri
5 halaman
Struktur Data Ogta
Belum ada peringkat
Struktur Data Ogta
3 halaman
Bab Ii
Belum ada peringkat
Bab Ii
10 halaman
Kelompok 8 - Algoritma Temu Balik Informasi - Fadil Jaya Pratama - DD
Belum ada peringkat
Kelompok 8 - Algoritma Temu Balik Informasi - Fadil Jaya Pratama - DD
17 halaman
Text Mining Concept
Belum ada peringkat
Text Mining Concept
8 halaman
Tugas SIM-dikonversi
Belum ada peringkat
Tugas SIM-dikonversi
4 halaman
Makalah Searching
Belum ada peringkat
Makalah Searching
39 halaman
BAB IV-Metode Information Retrival (IR)
Belum ada peringkat
BAB IV-Metode Information Retrival (IR)
8 halaman
Natural Language Preprocessing
Belum ada peringkat
Natural Language Preprocessing
9 halaman
Korpus
Belum ada peringkat
Korpus
4 halaman
03 - Boolean Retrieval
Belum ada peringkat
03 - Boolean Retrieval
28 halaman
TB1 - Ari Ariyanto - 41518310026
Belum ada peringkat
TB1 - Ari Ariyanto - 41518310026
9 halaman
Summarizer Text Menggunakan Library Sast
Belum ada peringkat
Summarizer Text Menggunakan Library Sast
15 halaman
Bab2 1925
Belum ada peringkat
Bab2 1925
7 halaman
Tugas 2 Struktur Data & Algoritma
Belum ada peringkat
Tugas 2 Struktur Data & Algoritma
3 halaman
Natural Language Processing
Belum ada peringkat
Natural Language Processing
7 halaman
Pemanfaatan Algoritma Tfidf Pada Sistem Informasi Ecomplaint Handling
Belum ada peringkat
Pemanfaatan Algoritma Tfidf Pada Sistem Informasi Ecomplaint Handling
7 halaman
Ai 7
Belum ada peringkat
Ai 7
34 halaman
Kelengkapan Dokumen - Nagari
Belum ada peringkat
Kelengkapan Dokumen - Nagari
1 halaman
Algoritma 2C (Struktur Data)
Belum ada peringkat
Algoritma 2C (Struktur Data)
5 halaman
Text Pre Processing v2 1
Belum ada peringkat
Text Pre Processing v2 1
75 halaman
02 - Information Retrieval System Capabilities
Belum ada peringkat
02 - Information Retrieval System Capabilities
30 halaman
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
4/5 (16)
Membuat Aplikasi Bisnis Menggunakan Visual Studio Lightswitch 2013
Dari Everand
Membuat Aplikasi Bisnis Menggunakan Visual Studio Lightswitch 2013
Risal
3.5/5 (7)