Natural Language Processing 14
Natural Language Processing 14
NATURAL LANGUAGE
PROCESSING
TEXT SUMMARIZATION
Fakultas
AFIYATI SSi., MT.
FAKULTAS ILMU
KOMPUTER
Program Studi
INFORMATIKA
MATERI
1. Pengenalan NLP
2. Pre-processing
3. Word Embedding
4. Klasifikasi teks dengan perceptron
5. Pemodelan bahasa (dasar dan lanjut)
6. Part-of-speech tagging
7. Context Free Grammar dan Parsing
8. Neural Network (NN) / Recurrent Neural Network (RNN)
9. Named Entity Recognition (NER)
10.Text Summarization
11.Long Short-Term Memory (LSTM)
12.Presentasi Final Project
DEFINISI TEXT SUMMARIZATION
Text Summarization adalah proses memadatkan teks sumber
menjadi versi yang lebih pendek dengan mempertahankan
konten informasinya.
Text
Summarization
Summary
Source text
AWAL TEXT SUMMARIZATION
Text Summarization atau ringkasan teks pertama kali
diperkenalkan pada tahun 1950 (Gaikwad & Mahender, 2016),
merupakan suatu metode dalam membuat ringkasan yang
singkat, akurat, dan dapat dicerna dari suatu dokumen teks yang
panjang. Sedangkan automatic text summarization adalah suatu
langkah untuk membuat ringkasan secara otomatis dengan tidak
mengubah inti dari suatu dokumen yang diringkas. Automatic
text summarization atau biasa disebut automatic
summarization sangat dibutuhkan pada era big data sekarang ini,
di mana jumlah data teks setiap hari selalu bertambah dengan
sangat banyak dan tidak terstruktur sehingga untuk membantu
menemukan informasi yang relevan dengan lebih cepat
dibutuhkan automatic summarization.
CONTOH TEXT SUMMARIZATION
Sebenarnya text summarization sudah ada dalam
kehidupan sehari-hari kita? Contohnya, headline atau
tajuk berita, rangkuman dari siswa atas materi yang
diberikan oleh pengajar, dalam dunia kerja terdapat
notulen dari suatu rapat, sinopsis dari sebuah buku
ataupun review dari sebuah film.
MANFAAT
Menurut (Torres-Moreno, 2014) antara lain:
• Ringkasan mengurangi waktu membaca dan memahami suatu
dokumen.
• Dalam pencarian suatu dokumen, ringkasan membuat proses
pemilihan dokumen yang relevan menjadi lebih mudah.
• Automatic summarization meningkatkan tingkat efektifitas dari
suatu indexing.
• Algoritma yang digunakan padaautomatic
summarization cenderung tidak bias daripada ringkasan yang
dibuat oleh manusia.
TEXT SUMMARIZATION & NLP
Mengurangi waktu
Tidak banyak bias
membaca, membantu
dibandingkan jika
proses query dengan
dilakukan oleh manusia
cepat
Membantu proses
Dapat memproses banyak
indexing data dengan
data sekaligus
cepat dan efektif
CARA KERJA TEXT SUMMARIZATION
Evaluation and
Result Analysis
• Readability
• Coverage
Summary • Coherence
Generation • etc
• Choosing the
n-best
Data sentences as
Representation the summary
Data Preprocessing and Scoring /
• Stemming Ranking
Data Collection • Stopword • Topic
• Data removal Representati
Crawling • POS Tagging on
• Tokenization • Indicator
• Punctuation Representati
Removal on
• Normalization
BAGAIMANA MEMBUAT SUMMARY
• Frekuensi
Kata yang dianggap penting adalah kata yang sering muncul
dalam sebuah dokumen. Semakin sering muncul, maka
perhitungan skor untuk kata tersebut semakin tinggi. Pengukuran
yang umum digunakan untuk menghitung frekuensi kata adalah
TF-IDF.
• Lokasi
Kalimat utama dalam suatu paragraf biasanya terdapat pada
bagian awal dan akhir dari sebuah paragraf, sehingga kalimat ini
memiliki kesempatan yang lebih besar untuk diikutsertakan
dalam sebuah ringkasan daripada kalimat yang berada di tengah
paragraf (Reeve et al., 2006).
FITUR TEXT SUMMARIZATION (2)
• Cue Method
Pentingnya suatu ide biasanya tersirat dari kalimat: “in summary”,
“in conclusion”, “the paper describes”, atau “kesimpulannya
adalah”, “ringkasannya”.
• Judul/Kepala Berita
Kata yang ada pada judul dan kepala/pokok berita besar
kemungkinannya berhubungan dengan ringkasan. Kata-kata yang
ada pada sebuah judul juga mengindikasikan topik dari suatu
dokumen (Khan & Salim, 2014).
FITUR TEXT SUMMARIZATION (3)
• Panjang Kalimat
Pada umumnya, kalimat yang terlalu panjang ataupun pendek tidak cocok
digunakan dalam sebuah ringkasan (Reeve et al., 2006).
• Kemiripan
Kemiripan dapat dikalkulasi dengan pengetahuan linguistik. Hal ini
mengindikasi kemiripan kalimat yang digunakan dalam judul dan dalam isi
dokumen.
• Kata Benda
Penggunaan kata benda yang tepat harus diperhatikan. Ringkasan harus
menggunakan kata benda yang tepat, misalnya nama seseorang, nama tempat
ataupun organisasi.
• Kedekatan
Jarak antar kata dalam sebuah entity menjadi sebuah faktor untuk membuat
relasi antar entity.
METODE