Natural Language Processing 14

Dokumen ini membahas tentang text summarization atau pembuatan ringkasan teks secara otomatis. Metode yang umum digunakan adalah ekstraksi dan abstraksi, di mana ekstraksi mengambil kalimat penting sedangkan abstraksi membuat kalimat baru dengan makna yang sama. Teknik yang digunakan meliputi frekuensi kata, lokasi kalimat, kemiripan, dan panjang kalimat.

Diunggah oleh

Fajar subeki

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

58 tayangan22 halaman

Natural Language Processing 14

Diunggah oleh

Fajar subeki

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 22

14

NATURAL LANGUAGE
PROCESSING
TEXT SUMMARIZATION

Fakultas
AFIYATI SSi., MT.
FAKULTAS ILMU
KOMPUTER

Program Studi
INFORMATIKA
MATERI
1. Pengenalan NLP
2. Pre-processing
3. Word Embedding
4. Klasifikasi teks dengan perceptron
5. Pemodelan bahasa (dasar dan lanjut)
6. Part-of-speech tagging
7. Context Free Grammar dan Parsing
8. Neural Network (NN) / Recurrent Neural Network (RNN)
9. Named Entity Recognition (NER)
10.Text Summarization
11.Long Short-Term Memory (LSTM)
12.Presentasi Final Project
DEFINISI TEXT SUMMARIZATION
Text Summarization adalah proses memadatkan teks sumber
menjadi versi yang lebih pendek dengan mempertahankan
konten informasinya.

Text
Summarization

Summary
Source text
AWAL TEXT SUMMARIZATION
Text Summarization atau ringkasan teks pertama kali
diperkenalkan pada tahun 1950 (Gaikwad & Mahender, 2016),
merupakan suatu metode dalam membuat ringkasan yang
singkat, akurat, dan dapat dicerna dari suatu dokumen teks yang
panjang. Sedangkan automatic text summarization adalah suatu
langkah untuk membuat ringkasan secara otomatis dengan tidak
mengubah inti dari suatu dokumen yang diringkas. Automatic
text summarization atau biasa disebut automatic
summarization sangat dibutuhkan pada era big data sekarang ini,
di mana jumlah data teks setiap hari selalu bertambah dengan
sangat banyak dan tidak terstruktur sehingga untuk membantu
menemukan informasi yang relevan dengan lebih cepat
dibutuhkan automatic summarization.
CONTOH TEXT SUMMARIZATION
Sebenarnya text summarization sudah ada dalam
kehidupan sehari-hari kita? Contohnya, headline atau
tajuk berita, rangkuman dari siswa atas materi yang
diberikan oleh pengajar, dalam dunia kerja terdapat
notulen dari suatu rapat, sinopsis dari sebuah buku
ataupun review dari sebuah film.
MANFAAT
Menurut (Torres-Moreno, 2014) antara lain:
• Ringkasan mengurangi waktu membaca dan memahami suatu
dokumen.
• Dalam pencarian suatu dokumen, ringkasan membuat proses
pemilihan dokumen yang relevan menjadi lebih mudah.
• Automatic summarization meningkatkan tingkat efektifitas dari
suatu indexing.
• Algoritma yang digunakan padaautomatic
summarization cenderung tidak bias daripada ringkasan yang
dibuat oleh manusia.
TEXT SUMMARIZATION & NLP

• Automatic text summarization adalah bagian

dari natural language processing dimana
computer dapat mengerti, mendapatkan
makna dan menganalisis bahasa manusia.
APA YANG DIBUTUHKAN?

• Mengerti teks : membaca teks kata per kata,

kalimat per kalimat
• Memberi tanda penting pada text
• Menentukan kata kunci
MENGAPA HARUS MELAKUKAN
TEXT SUMMARIZATION

Mengurangi waktu
Tidak banyak bias
membaca, membantu
dibandingkan jika
proses query dengan
dilakukan oleh manusia
cepat

Membantu proses
Dapat memproses banyak
indexing data dengan
data sekaligus
cepat dan efektif
CARA KERJA TEXT SUMMARIZATION

Evaluation and
Result Analysis
• Readability
• Coverage
Summary • Coherence
Generation • etc
• Choosing the
n-best
Data sentences as
Representation the summary
Data Preprocessing and Scoring /
• Stemming Ranking
Data Collection • Stopword • Topic
• Data removal Representati
Crawling • POS Tagging on
• Tokenization • Indicator
• Punctuation Representati
Removal on
• Normalization
BAGAIMANA MEMBUAT SUMMARY

• Dari proses awal mengumpulkan data

– Advantage: dapat bereksperimen dengan berbagai
pengaturan fitur / komponen
– Disadvantage: membutuhkan waktu

• Menggunakan tools/modules yang ada

– Advantage: simple, cepat
– Disadvantage: (kebanyakan) sulit untuk mengatur fitur /
komponen karena biasanya disederhanakan
FITUR TEXT SUMMARIZATION (1)

• Frekuensi
Kata yang dianggap penting adalah kata yang sering muncul
dalam sebuah dokumen. Semakin sering muncul, maka
perhitungan skor untuk kata tersebut semakin tinggi. Pengukuran
yang umum digunakan untuk menghitung frekuensi kata adalah
TF-IDF.
• Lokasi
Kalimat utama dalam suatu paragraf biasanya terdapat pada
bagian awal dan akhir dari sebuah paragraf, sehingga kalimat ini
memiliki kesempatan yang lebih besar untuk diikutsertakan
dalam sebuah ringkasan daripada kalimat yang berada di tengah
paragraf (Reeve et al., 2006).
FITUR TEXT SUMMARIZATION (2)

• Cue Method
Pentingnya suatu ide biasanya tersirat dari kalimat: “in summary”,
“in conclusion”, “the paper describes”, atau “kesimpulannya
adalah”, “ringkasannya”.
• Judul/Kepala Berita
Kata yang ada pada judul dan kepala/pokok berita besar
kemungkinannya berhubungan dengan ringkasan. Kata-kata yang
ada pada sebuah judul juga mengindikasikan topik dari suatu
dokumen (Khan & Salim, 2014).
FITUR TEXT SUMMARIZATION (3)

• Panjang Kalimat
Pada umumnya, kalimat yang terlalu panjang ataupun pendek tidak cocok
digunakan dalam sebuah ringkasan (Reeve et al., 2006).
• Kemiripan
Kemiripan dapat dikalkulasi dengan pengetahuan linguistik. Hal ini
mengindikasi kemiripan kalimat yang digunakan dalam judul dan dalam isi
dokumen.
• Kata Benda
Penggunaan kata benda yang tepat harus diperhatikan. Ringkasan harus
menggunakan kata benda yang tepat, misalnya nama seseorang, nama tempat
ataupun organisasi.
• Kedekatan
Jarak antar kata dalam sebuah entity menjadi sebuah faktor untuk membuat
relasi antar entity.
METODE

Pendekatan yang umum dalam membuat text

summarization antara lain:
• Metode extraction/ekstraksi
• Metode abstraction/abstraksi
KOMPONENS TEXT SUMMARIZATION
METODE EXTRACTION/EKSTRAKSI (1)

• Metode extraction/ekstraksi sesuai dengan namanya, yakni

mengekstrak atau memilih kata, frase, ataupun kalimat dari
sumber dokumen untuk dijadikan sebuah ringkasan. Teknik
yang digunakan pada metode ini adalah
menggunakan ranking dari relevansi suatu frase. Yang nanti
akan dipilih hanya bagian yang paling relevan untuk digunakan
dalam ringkasan. Pada metode ini, frase atau kalimat utama
diekstrak dari sumber dokumen dan digabungkan sehingga
menjadi suatu ringkasan yang mewakili isi dari sumber
dokumen (Kumar, Goh, Basiron, Choon, & Suppiah, 2016).
METODE EXTRACTION/EKSTRAKSI (2)

Berikut adalah teknik yang menggunakan metode ekstraksi:

• Term frequency-inverse document frequency method
• Cluster based method
• Graph theoretic method
• Machine learning approach
• LSA method
• Text summarization with neural networks
• Automatic TS based on fuzzy logic
• Query based extractive text summarization
METODE ABSTRACTION/ABSTRAKSI

Metode abstraction/abstraksi yakni membuat ringkasan dari

kalimat ataupun frase yang berbeda, tetapi tetap memiliki intisari
arti yang sama dari sumber dokumen. Metode ini biasa
digunakan oleh kita dalam membuat ringkasan, dan metode ini
lebih menantang daripada metode sebelumnya. Teknik yang
digunakan salah satunya adalah teknik natural language yang
kompleks. Metode ini diklasifikasi menjadi dua kategori, yakni:

1. Structured based approach

2. Semantic based approach
STRUCTURED BASED APPROACH
Pendekatan ini mengubah informasi yang penting dari suatu
dokumen melalui skema kognitif seperti template, aturan
ekstraksi (extraction rules) dan struktur lainnya seperti tree,
ontology, lead and body phrase structure (Saranyamol & Sindhu,
2004). Metode yang menggunakan pendekatan ini di antaranya:
• Tree based method
• Template based method
• Ontology based method
• Lead and body phrase method
• Rule based method
SEMANTIC BASED APPROACH

Pada pendekatan ini, representasi secara semantik dari suatu

dokumen digunakan sebagai masukan dari sistem natural
language. Metode ini berfokus pada identifikasi frase kata benda
dan kata kerja dengan memproses data linguistik (Saranyamol &
Sindhu, 2004). Metode yang menggunakan pendekatan ini di
antaranya:
• Multimodal semantic model
• Information item based method
• Semantic graph based method
Terima Kasih
AFIYATI SSi., MT.

Anda mungkin juga menyukai

Sintesis Informasi
Belum ada peringkat
Sintesis Informasi
11 halaman
Contoh Proposal TA D3
Belum ada peringkat
Contoh Proposal TA D3
13 halaman
Modul NLP
Belum ada peringkat
Modul NLP
32 halaman
Bab 11 - Ringkasan, Abstrak Dan Sintesis
100% (1)
Bab 11 - Ringkasan, Abstrak Dan Sintesis
18 halaman
Tahapan Text Mining
Belum ada peringkat
Tahapan Text Mining
2 halaman
Tutorial Dasar NumPy Python
0% (1)
Tutorial Dasar NumPy Python
37 halaman
Bab 5 Hal 2 Id
Belum ada peringkat
Bab 5 Hal 2 Id
36 halaman
Kemampuan Menulis - Kelompok 7
Belum ada peringkat
Kemampuan Menulis - Kelompok 7
22 halaman
Pi 2024 TM 11 Reproduksi Naskah 11
Belum ada peringkat
Pi 2024 TM 11 Reproduksi Naskah 11
26 halaman
IR 8. Indexing
Belum ada peringkat
IR 8. Indexing
25 halaman
4688-Article Text-15423-1-10-20200724
Belum ada peringkat
4688-Article Text-15423-1-10-20200724
13 halaman
Text Mining - 01
Belum ada peringkat
Text Mining - 01
55 halaman
Artikel - Rosita - Habibah
Belum ada peringkat
Artikel - Rosita - Habibah
9 halaman
Sains Data Kel 10
Belum ada peringkat
Sains Data Kel 10
13 halaman
PLAGIASI
Belum ada peringkat
PLAGIASI
36 halaman
Penambangan Teks (Text Mining)
100% (2)
Penambangan Teks (Text Mining)
16 halaman
BINDO (Kelompok 9)
Belum ada peringkat
BINDO (Kelompok 9)
14 halaman
7th Meeting of Ai - NLP
Belum ada peringkat
7th Meeting of Ai - NLP
43 halaman
Penerapan Algoritma Textrank Untuk Autom 81213720
Belum ada peringkat
Penerapan Algoritma Textrank Untuk Autom 81213720
8 halaman
Makalah Abstrak Dan Sintesis
100% (1)
Makalah Abstrak Dan Sintesis
16 halaman
Bab 11 - Ringkasan, Abstrak Dan Sintesis
Belum ada peringkat
Bab 11 - Ringkasan, Abstrak Dan Sintesis
18 halaman
Membuat Kutipan, Parafrasa Dan Ringkasan Sumber-Sumber Referensi
Belum ada peringkat
Membuat Kutipan, Parafrasa Dan Ringkasan Sumber-Sumber Referensi
26 halaman
2 3. Text Preprocessing (Parsing Lexical Stop Word Phrase Stemming Lemmatization
Belum ada peringkat
2 3. Text Preprocessing (Parsing Lexical Stop Word Phrase Stemming Lemmatization
46 halaman
Algoritma Genetika
Belum ada peringkat
Algoritma Genetika
8 halaman
Slide 3 Basic NLP Tools & Preprocessing Text
Belum ada peringkat
Slide 3 Basic NLP Tools & Preprocessing Text
33 halaman
11197-Article Text-42914-1-10-20240427
Belum ada peringkat
11197-Article Text-42914-1-10-20240427
9 halaman
1b-Membuat Kutipan, Parafrasa Dan Ringkasan Sumber-Sumber Referensi
Belum ada peringkat
1b-Membuat Kutipan, Parafrasa Dan Ringkasan Sumber-Sumber Referensi
23 halaman
Makalah Ringkasan
100% (1)
Makalah Ringkasan
9 halaman
Makalah Kel.11.REPRODUKSI TEKS.
Belum ada peringkat
Makalah Kel.11.REPRODUKSI TEKS.
22 halaman
Aplikasi Pendeteksi Kemiripan Dokumen Teks Bahasa Indonesia
Belum ada peringkat
Aplikasi Pendeteksi Kemiripan Dokumen Teks Bahasa Indonesia
18 halaman
9654-Article Text-36968-1-10-20240504
Belum ada peringkat
9654-Article Text-36968-1-10-20240504
5 halaman
Pertemuan 2.2 - Dokumen Preprocessing
Belum ada peringkat
Pertemuan 2.2 - Dokumen Preprocessing
62 halaman
Document 1
Belum ada peringkat
Document 1
1 halaman
MachineLearning Sesi13 Natural Language Processing
Belum ada peringkat
MachineLearning Sesi13 Natural Language Processing
32 halaman
Implementasi Cross Method Latent Semantic Analysis Untuk Meringkas Dokumen Berita Berbahasa Indonesia
Belum ada peringkat
Implementasi Cross Method Latent Semantic Analysis Untuk Meringkas Dokumen Berita Berbahasa Indonesia
12 halaman
Makalah Bindo Pengertian Done! KRG DFTR Isi, Hal
Belum ada peringkat
Makalah Bindo Pengertian Done! KRG DFTR Isi, Hal
16 halaman
27-Text Mining Dan NLP
Belum ada peringkat
27-Text Mining Dan NLP
30 halaman
RINGKASAN
Belum ada peringkat
RINGKASAN
21 halaman
Ringkasan Dan Abstrak Kelompok 4 Bahasa Indonesia
Belum ada peringkat
Ringkasan Dan Abstrak Kelompok 4 Bahasa Indonesia
20 halaman
Teknik Analisis Data EDA
100% (1)
Teknik Analisis Data EDA
17 halaman
Implementasi Metode Reccurrent Neural Network Pada
Belum ada peringkat
Implementasi Metode Reccurrent Neural Network Pada
6 halaman
13 Ringkasan, Abstrak Dan Sintesis
Belum ada peringkat
13 Ringkasan, Abstrak Dan Sintesis
28 halaman
Pbis4310 M1
Belum ada peringkat
Pbis4310 M1
34 halaman
Pendahuluan
Belum ada peringkat
Pendahuluan
16 halaman
Bab 2
Belum ada peringkat
Bab 2
16 halaman
Question Answering System
Belum ada peringkat
Question Answering System
2 halaman
Rahadi T Prasetyo - Aditya Wisnu - Review Text Summarization
Belum ada peringkat
Rahadi T Prasetyo - Aditya Wisnu - Review Text Summarization
5 halaman
4 NaturalLanguageProcessing KecerdasanBuatan KamalFadli 11180910000025
Belum ada peringkat
4 NaturalLanguageProcessing KecerdasanBuatan KamalFadli 11180910000025
25 halaman
Document
Belum ada peringkat
Document
1 halaman
Makalah Bahasa Indonesia Tentang Pembuatan Ringkasan
Belum ada peringkat
Makalah Bahasa Indonesia Tentang Pembuatan Ringkasan
10 halaman
Sinopsis Ikhtisar Resensi Rangkuman Dan Makalah
Belum ada peringkat
Sinopsis Ikhtisar Resensi Rangkuman Dan Makalah
17 halaman
12.mengenal Resume Dan Kembarannya
Belum ada peringkat
12.mengenal Resume Dan Kembarannya
9 halaman
Ringkasan Adalah Sebuah Cara Menyajikan Karangan Dalam Bentuk Singkat
Belum ada peringkat
Ringkasan Adalah Sebuah Cara Menyajikan Karangan Dalam Bentuk Singkat
5 halaman
Ai 7
Belum ada peringkat
Ai 7
34 halaman
Makalah Bahasa Indonesia
Belum ada peringkat
Makalah Bahasa Indonesia
20 halaman
Natural Language Preprocessing
Belum ada peringkat
Natural Language Preprocessing
9 halaman
Tugas Kuliah
Belum ada peringkat
Tugas Kuliah
10 halaman
Jurnal Ir
Belum ada peringkat
Jurnal Ir
7 halaman
Prsentasi Usulan Penelitian
Belum ada peringkat
Prsentasi Usulan Penelitian
4 halaman
Natural Language Processing 15
Belum ada peringkat
Natural Language Processing 15
15 halaman
Summarizer Text Menggunakan Library Sast
Belum ada peringkat
Summarizer Text Menggunakan Library Sast
15 halaman
LTM 3 Ringkasan Ikhtisar, Abstrak, Sintesis
Belum ada peringkat
LTM 3 Ringkasan Ikhtisar, Abstrak, Sintesis
3 halaman
Statistik Dasar Untuk Data Scientist
100% (2)
Statistik Dasar Untuk Data Scientist
20 halaman
ETIKA 5 Eknbisnis
Belum ada peringkat
ETIKA 5 Eknbisnis
19 halaman
MG 15 KWH 1 - Compressed
Belum ada peringkat
MG 15 KWH 1 - Compressed
12 halaman
Modul-Praktikum-Dasar-Pemrograman-Dengan-Bahasa-Python UMB
Belum ada peringkat
Modul-Praktikum-Dasar-Pemrograman-Dengan-Bahasa-Python UMB
41 halaman
Statistik Vs Data Mining
Belum ada peringkat
Statistik Vs Data Mining
27 halaman
Makalah Tugas Kecil Kewirausahaan - 1: Nama: Wawan Septian NIM: 41618110001
Belum ada peringkat
Makalah Tugas Kecil Kewirausahaan - 1: Nama: Wawan Septian NIM: 41618110001
15 halaman
Pesan Moral Dalam Film India: (Analisis Isi Film PK Karya Rajkumar Hirani)
Belum ada peringkat
Pesan Moral Dalam Film India: (Analisis Isi Film PK Karya Rajkumar Hirani)
19 halaman
Makalah Implementasi Jiwa Wirausaha: Program Akuntansi Universitas Mercubuana
Belum ada peringkat
Makalah Implementasi Jiwa Wirausaha: Program Akuntansi Universitas Mercubuana
13 halaman