0% menganggap dokumen ini bermanfaat (0 suara)
58 tayangan22 halaman

Natural Language Processing 14

Dokumen ini membahas tentang text summarization atau pembuatan ringkasan teks secara otomatis. Metode yang umum digunakan adalah ekstraksi dan abstraksi, di mana ekstraksi mengambil kalimat penting sedangkan abstraksi membuat kalimat baru dengan makna yang sama. Teknik yang digunakan meliputi frekuensi kata, lokasi kalimat, kemiripan, dan panjang kalimat.

Diunggah oleh

Fajar subeki
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
58 tayangan22 halaman

Natural Language Processing 14

Dokumen ini membahas tentang text summarization atau pembuatan ringkasan teks secara otomatis. Metode yang umum digunakan adalah ekstraksi dan abstraksi, di mana ekstraksi mengambil kalimat penting sedangkan abstraksi membuat kalimat baru dengan makna yang sama. Teknik yang digunakan meliputi frekuensi kata, lokasi kalimat, kemiripan, dan panjang kalimat.

Diunggah oleh

Fajar subeki
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 22

14

NATURAL LANGUAGE
PROCESSING
TEXT SUMMARIZATION

Fakultas
AFIYATI SSi., MT.
FAKULTAS ILMU
KOMPUTER

Program Studi
INFORMATIKA
MATERI
1. Pengenalan NLP
2. Pre-processing
3. Word Embedding
4. Klasifikasi teks dengan perceptron
5. Pemodelan bahasa (dasar dan lanjut)
6. Part-of-speech tagging
7. Context Free Grammar dan Parsing
8. Neural Network (NN) / Recurrent Neural Network (RNN)
9. Named Entity Recognition (NER)
10.Text Summarization
11.Long Short-Term Memory (LSTM)
12.Presentasi Final Project
DEFINISI TEXT SUMMARIZATION
Text Summarization adalah proses memadatkan teks sumber
menjadi versi yang lebih pendek dengan mempertahankan
konten informasinya.

Text
Summarization

Summary
Source text
AWAL TEXT SUMMARIZATION
Text Summarization atau ringkasan teks pertama kali
diperkenalkan pada tahun 1950 (Gaikwad & Mahender, 2016),
merupakan suatu metode dalam membuat ringkasan yang
singkat, akurat, dan dapat dicerna dari suatu dokumen teks yang
panjang. Sedangkan automatic text summarization adalah suatu
langkah untuk membuat ringkasan secara otomatis dengan tidak
mengubah inti dari suatu dokumen yang diringkas. Automatic
text summarization atau biasa disebut automatic
summarization sangat dibutuhkan pada era big data sekarang ini,
di mana jumlah data teks setiap hari selalu bertambah dengan
sangat banyak dan tidak terstruktur sehingga untuk membantu
menemukan informasi yang relevan dengan lebih cepat
dibutuhkan automatic summarization.
CONTOH TEXT SUMMARIZATION
Sebenarnya text summarization sudah ada dalam
kehidupan sehari-hari kita? Contohnya, headline atau
tajuk berita, rangkuman dari siswa atas materi yang
diberikan oleh pengajar, dalam dunia kerja terdapat
notulen dari suatu rapat, sinopsis dari sebuah buku
ataupun review dari sebuah film.
MANFAAT
Menurut (Torres-Moreno, 2014) antara lain:
• Ringkasan mengurangi waktu membaca dan memahami suatu
dokumen.
• Dalam pencarian suatu dokumen, ringkasan membuat proses
pemilihan dokumen yang relevan menjadi lebih mudah.
• Automatic summarization meningkatkan tingkat efektifitas dari
suatu indexing.
• Algoritma yang digunakan padaautomatic
summarization cenderung tidak bias daripada ringkasan yang
dibuat oleh manusia.
TEXT SUMMARIZATION & NLP

• Automatic text summarization adalah bagian


dari natural language processing dimana
computer dapat mengerti, mendapatkan
makna dan menganalisis bahasa manusia.
APA YANG DIBUTUHKAN?

• Mengerti teks : membaca teks kata per kata,


kalimat per kalimat
• Memberi tanda penting pada text
• Menentukan kata kunci
MENGAPA HARUS MELAKUKAN
TEXT SUMMARIZATION

Mengurangi waktu
Tidak banyak bias
membaca, membantu
dibandingkan jika
proses query dengan
dilakukan oleh manusia
cepat

Membantu proses
Dapat memproses banyak
indexing data dengan
data sekaligus
cepat dan efektif
CARA KERJA TEXT SUMMARIZATION

Evaluation and
Result Analysis
• Readability
• Coverage
Summary • Coherence
Generation • etc
• Choosing the
n-best
Data sentences as
Representation the summary
Data Preprocessing and Scoring /
• Stemming Ranking
Data Collection • Stopword • Topic
• Data removal Representati
Crawling • POS Tagging on
• Tokenization • Indicator
• Punctuation Representati
Removal on
• Normalization
BAGAIMANA MEMBUAT SUMMARY

• Dari proses awal mengumpulkan data


– Advantage: dapat bereksperimen dengan berbagai
pengaturan fitur / komponen
– Disadvantage: membutuhkan waktu

• Menggunakan tools/modules yang ada


– Advantage: simple, cepat
– Disadvantage: (kebanyakan) sulit untuk mengatur fitur /
komponen karena biasanya disederhanakan
FITUR TEXT SUMMARIZATION (1)

• Frekuensi
Kata yang dianggap penting adalah kata yang sering muncul
dalam sebuah dokumen. Semakin sering muncul, maka
perhitungan skor untuk kata tersebut semakin tinggi. Pengukuran
yang umum digunakan untuk menghitung frekuensi kata adalah
TF-IDF.
• Lokasi
Kalimat utama dalam suatu paragraf biasanya terdapat pada
bagian awal dan akhir dari sebuah paragraf, sehingga kalimat ini
memiliki kesempatan yang lebih besar untuk diikutsertakan
dalam sebuah ringkasan daripada kalimat yang berada di tengah
paragraf (Reeve et al., 2006).
FITUR TEXT SUMMARIZATION (2)

• Cue Method
Pentingnya suatu ide biasanya tersirat dari kalimat: “in summary”,
“in conclusion”, “the paper describes”, atau “kesimpulannya
adalah”, “ringkasannya”.
• Judul/Kepala Berita
Kata yang ada pada judul dan kepala/pokok berita besar
kemungkinannya berhubungan dengan ringkasan. Kata-kata yang
ada pada sebuah judul juga mengindikasikan topik dari suatu
dokumen (Khan & Salim, 2014).
FITUR TEXT SUMMARIZATION (3)

• Panjang Kalimat
Pada umumnya, kalimat yang terlalu panjang ataupun pendek tidak cocok
digunakan dalam sebuah ringkasan (Reeve et al., 2006).
• Kemiripan
Kemiripan dapat dikalkulasi dengan pengetahuan linguistik. Hal ini
mengindikasi kemiripan kalimat yang digunakan dalam judul dan dalam isi
dokumen.
• Kata Benda
Penggunaan kata benda yang tepat harus diperhatikan. Ringkasan harus
menggunakan kata benda yang tepat, misalnya nama seseorang, nama tempat
ataupun organisasi.
• Kedekatan
Jarak antar kata dalam sebuah entity menjadi sebuah faktor untuk membuat
relasi antar entity.
METODE

Pendekatan yang umum dalam membuat text


summarization antara lain:
• Metode extraction/ekstraksi
• Metode abstraction/abstraksi
KOMPONENS TEXT SUMMARIZATION
METODE EXTRACTION/EKSTRAKSI (1)

• Metode extraction/ekstraksi sesuai dengan namanya, yakni


mengekstrak atau memilih kata, frase, ataupun kalimat dari
sumber dokumen untuk dijadikan sebuah ringkasan. Teknik
yang digunakan pada metode ini adalah
menggunakan ranking dari relevansi suatu frase. Yang nanti
akan dipilih hanya bagian yang paling relevan untuk digunakan
dalam ringkasan. Pada metode ini, frase atau kalimat utama
diekstrak dari sumber dokumen dan digabungkan sehingga
menjadi suatu ringkasan yang mewakili isi dari sumber
dokumen (Kumar, Goh, Basiron, Choon, & Suppiah, 2016).
METODE EXTRACTION/EKSTRAKSI (2)

Berikut adalah teknik yang menggunakan metode ekstraksi:


• Term frequency-inverse document frequency method
• Cluster based method
• Graph theoretic method
• Machine learning approach
• LSA method
• Text summarization with neural networks
• Automatic TS based on fuzzy logic
• Query based extractive text summarization
METODE ABSTRACTION/ABSTRAKSI

Metode abstraction/abstraksi yakni membuat ringkasan dari


kalimat ataupun frase yang berbeda, tetapi tetap memiliki intisari
arti yang sama dari sumber dokumen. Metode ini biasa
digunakan oleh kita dalam membuat ringkasan, dan metode ini
lebih menantang daripada metode sebelumnya. Teknik yang
digunakan salah satunya adalah teknik natural language yang
kompleks. Metode ini diklasifikasi menjadi dua kategori, yakni:

1. Structured based approach


2. Semantic based approach
STRUCTURED BASED APPROACH
Pendekatan ini mengubah informasi yang penting dari suatu
dokumen melalui skema kognitif seperti template, aturan
ekstraksi (extraction rules) dan struktur lainnya seperti tree,
ontology, lead and body phrase structure (Saranyamol & Sindhu,
2004). Metode yang menggunakan pendekatan ini di antaranya:
• Tree based method
• Template based method
• Ontology based method
• Lead and body phrase method
• Rule based method
SEMANTIC BASED APPROACH

Pada pendekatan ini, representasi secara semantik dari suatu


dokumen digunakan sebagai masukan dari sistem natural
language. Metode ini berfokus pada identifikasi frase kata benda
dan kata kerja dengan memproses data linguistik (Saranyamol &
Sindhu, 2004). Metode yang menggunakan pendekatan ini di
antaranya:
• Multimodal semantic model
• Information item based method
• Semantic graph based method
Terima Kasih
AFIYATI SSi., MT.

Anda mungkin juga menyukai