01 - NLP Introduction To NLP
01 - NLP Introduction To NLP
Informasi tambahan
email{at}orbitfutureacademy.sch.id
Linkedin / web
Our Rules – NLP Squad
Kehadiran:
• Toleransi keterlambatan 15 menit.
• Izin kehadiran memberikan konfirmasi dengan alasan yang penting kepada homeroom coach.
General Rule:
• Positive attitude. Hargai semua orang di kelas ini.
• Aktif dalam pembelajaran.
• Jika terjadi hal di luar kendali seperti mati listrik dan lain sebagainya, lakukan konfirmasi via chat.
• Rename nama zoom: NamaKelas_NamaLengkap.
Agenda Khusus:
• Mengisi logbook pada web Kampus Merdeka.
• Mengisi presensi dan feedback form.
Pre-Test NLP
https://s.id/pretest-nlp
Learning Objective – NLP Squad
1. Introduction to NLP
2. Text Representation
3. Text Classification
4. Text Summarization
5. Word Embedding Techniques
6. Deep Learning in NLP
7. Transfer Learning for NLP 1: Transformer Model
8. Transfer Learning for NLP 2: BERT & GPT
9. Speech Recognition
AI Module 10
Natural Language Processing (NLP)
Mastery Section 1
Course Introduction to Natural Language
Processing
Learning Objectives
Di akhir modul ini, Anda akan mendapatkan:
▪ Memahami NLP dan evolusinya.
• A kuisisi Data
• T ext Extraction and Cleaning
02 NLP PIPELINE • T ext Preprocessing
• Rekayasa Fitur
Agenda
• Pemodelan & Evaluasi Model
• Ringkasan
04 KESIMPULAN • Kuis
01 INTRODUCTION TO NLP
• Pengertian NLP
• Area aplikasi NLP
• Bahasa manusia vs mesin
AI Domains: Recap
Tabular Speech
Image Sensor
Email Numerik
Dokumen Video
Jadi, apa itu NLP?
Baca selanjutnya:
J. Tsujii, “Natural Language Processing and Computational Linguistics,” Computational
Linguistics, pp. 1–21, Dec. 2021.
https://doi.org/10.1162/coli_a_00420
NLP = NLU + NLG
• NLP adalah kemampuan komputer
memahami bahasa manusia dalam bentuk
tertulis (teks) dan verbal (ucapan).
• NLU adalah bagian NLP yang
menggunakan analisis sintaksis dan
semantik untuk menentukan makna
kalimat (membaca).
• NLG adalah bagian NLP
untuk menghasilkan respons bahasa
manusia berdasarkan beberapa input
(menulis).
Sejarah NLP – Era Klasik
Sejarah NLP – Era Deep Learning
Baca selanjutnya:
P. Johri, S. K. Khatri, A. T. Al-Taani, M. Sabharwal, S. Suvanov, and A. Kumar, “Natural
Language Processing: History, Evolution, Application, and Future Work,” Lecture Notes in
Networks and Systems, pp. 365–375, 2021, doi: 10.1007/978-981-15-9712-1_31.
https://doi.org/10.1007/978-981-15-9712-1_31
Untuk apa NLP digunakan?
Baca selanjutnya:
A. Bouziane, D. Bouchiha, N. Doumi, and M. Malki,
“Question Answering Systems: Survey and
Trends,” Procedia Computer Science, vol. 73, pp. 366–375,
2015.
https://doi.org/10.1016/j.procs.2015.12.005
Information Retrieval
Baca selanjutnya:
H. K. Azad and A. Deepak, “Query expansion techniques for
information retrieval: A survey,” Information Processing &
Management, vol. 56, no. 5, pp. 1698–1735, Sep. 2019.
https://doi.org/10.1016/j.ipm.2019.05.009
Text Summarization
Baca selanjutnya:
W. S. El-Kassas, C. R. Salama, A. A. Rafea, and H. K.
Mohamed, “Automatic text summarization: A
comprehensive survey,” Expert Systems with Applications,
vol. 165, p. 113679, Mar. 2021
https://doi.org/10.1016/j.eswa.2020.113679
Machine Translation
Baca selanjutnya:
H. Wang, H. Wu, Z. He, L. Huang, and K. Ward Church,
“Progress in Machine Translation,” Engineering, Jul. 2021.
https://doi.org/10.1016/j.eng.2021.03.023
Text Classification
Baca selanjutnya:
B. Altınel and M. C. Ganiz, “Semantic text classification: A
survey of past and recent advances,” Information
Processing & Management, vol. 54, no. 6, pp. 1129–1153,
Nov. 2018.
https://doi.org/10.1016/j.ipm.2018.08.001
Speech Recognition
Baca selanjutnya:
A. P. Singh, R. Nath, and S. Kumar, “A Survey: Speech
Recognition Approaches and Techniques,” 2018 5th IEEE
Uttar Pradesh Section International Conference on
Electrical, Electronics and Computer Engineering (UPCON),
Nov. 2018.
10.1109/UPCON.2018.8596954
Mana yang lebih sulit?
Tapi, bagaimana mesin membaca?
Bahasa manusia vs mesin
Susunan Kata dan Artinya
Semantik Kajian yang mencakup arti dan makna kata sesungguhnya dalam satuan kalimat.
Kajian yang mencakup seluk-beluk tata bahasa (grammar & cara penulisan) dalam satuan
Sintaksis
kalimat.
• Akuisisi Data
• Text Extraction and Cleaning
• Text Preprocessing
• Rekayasa Fitur
• Pemodelan & Evaluasi Model
NLP Pipeline
01 Akuisisi Data
Menggunakan data publik yang sudah tersedia melalui berbagai sumber seperti Hugging
Public Dataset
Face, Google Dataset Search, Kaggle, dll.
Mengumpulkan data secara langsung dari halaman web menggunakan beautiful soup,
Web Scraping
selenium, scrapy.
Product
Mengumpulkan data dari produk sendiri atau dari produk yang sudah ada. Misalnya
Intervention
Data
Menghasilkan lebih banyak data dari kumpulan dataset yang ada
Augmentation
02 Text Extraction & Cleaning
Langkah ini mengacu pada proses mengekstrak teks mentah dari data input
dengan menghapus semua informasi non-tekstual, seperti metadata, tag
HMTL dan mengonversi teks ke format yang diperlukan. Langkah ini bersifat
opsional, tergantung pada format data yang tersedia.
03 Text Preprocessing
Langkah ini mengacu pada proses menyeleksi teks agar lebih terstruktur
dengan melalui serangkaian tahapan. Tidak semua tahapan text preprocessing
harus dilakukan, tergantung pada tugas dan domain yang akan dikerjakan.
03 Text Processing
Lower Case & Remove Whitespaces
RegEx adalah string teks (urutan karakter) untuk membuat pola yang
membantu mencocokkan, menemukan, dan mengelola teks.
03 Text Processing
Remove URLs & Email
03 Text Processing
Remove Numbers & Punctuations
03 Text Processing
Remove Emoji & Emoticon
03 Text Processing
Emoji & Emoticon Conversion
“😀 → grinning_face atau :-) → happy_face_smiley”
03 Text Processing
Slang Word Normalization
Stemming Tahapan menghilangkan prefix dan suffix menjadikan kata ke bentuk dasar.
POS Tagging Memberi label pada kata-kata dalam suatu teks menurut jenis katanya.
03 Text Preprocessing
Tokenization
Token
03 Text Preprocessing
Tokenization
sent_tokenize()
Memisahkan kalimat
pada suatu paragraf.
word_tokenize()
Memisahkan kata
pada suatu kalimat.
03 Text Processing
Stop words Removal
Tidak ada aturan pasti dalam menentukan stop word yang akan digunakan.
Penentuan stop word bisa disesuaikan dengan domain atau tugas yang sedang
diselesaikan.
03 Text Processing
Stop words Removal
Tambahkan stop word
berdasarkan tugas yang
akan diselesaikan
04 Rekayasa Fitur
Rekayasa fitur adalah seni. Pada NLP, dapat disebut ‘representasi teks’.
Pertemuan ke 2:
Text Representation Pertemuan ke 5:
Word Embedding
05 Pemodelan
Mulai latih dan kembangkan model NLP. Saat ini, banyak model dikembangkan
berbasis deep learning. Sehingga, membutuhkan sumber daya komputasi yang
tinggi.
06 Evaluasi Model
Dalam setiap pengembangan model AI, langkah kuncinya adalah mengukur
seberapa ‘bagus’ model yang dibuat.
Baca selanjutnya:
M.-A. Clinciu, A. Eshghi, and H. Hastie, “A Study of Automatic Metrics for the
Evaluation of Natural Language Explanations,” 2387. Accessed: Mar. 20,
2022.
https://aclanthology.org/2021.eacl-main.202.pdf
06 Evaluasi Model
Metric Aplikasi
Accuracy Banyak digunakan untuk klasifikasi teks, misalnya sentiment analysis
Precision Banyak digunakan jika kesalahan di kelas positif lebih penting daripada
kesalahan di kelas negatif, misalnya prediksi penyakit.
Recall Banyak digunakan jika pengambilan hasil kelas positif lebih penting,
misalnya pencarian e-commerce atau tugas information-retrieval lainnya.
Mean Reciprocal Banyak digunakan untuk tugas information-retrieval.
Rank (MRR)
Bilingual Evaluation Banyak digunakan untuk tugas machine translation dan chatbot.
Understudy (BLUE)
• Tantangan NLP
• Masa depan NLP
Tantangan
• Sarkasme
• Ambiguitas kata dan kalimat
• Kesalahan dalam teks atau ucapan
• Penggunaan bahasa gaul
• Konteks bahasa
• Bahasa khusus sesuai domain (kesehatan, sains, sejarah)
• Bahasa dengan sumber daya yang sedikit
• Dataset Bahasa Indonesia yang terbatas
Masa Depan NLP
• Pengenalan emosi
• Bahasa berkembang secara dinamis, analisis sintaks seperti struktur bahasa
akan terus ada.
• Kebutuhan AI untuk faham mengenai makna dan logika dari teks dan suara
akan terus dibutuhkan
04 KESIMPULAN
• Ringkasan
• Kuis
Ringkasan
1. NLP adalah cabang keilmuan dari kecerdasan buatan yang mempelajari
interaksi antara komputer dan manusia menggunakan bahasa alami.
2. NLP terdiri dari NLU (kemampuan membaca) dan NLG (kemampuan
menulis).
3. Area aplikasi NLP: QAS, information retrieval, text summarization, text
classification, machine translation.
4. NLP pipeline merujuk pada langkah-langkah yang dilakukan untuk
membangun sistem berbasis NLP. Secara umum terdiri dari: akuisisi
data, text cleaning, text processing, rekayasa fitur, pemodelan, evaluasi
model, deployment dan monitoring.
5. Tantangan utama NLP adalah sarkasme, kesalahan Bahasa (typo),
penggunaan Bahasa gaul, dan ketersediaan Bahasa.
6. Masa depan NLP meliputi pengenalan emosi, kebutuhan pemahaman
Bahasa akan terus dibutuhkan pada semua bidang kehidupan manusia.
Kuis
Pertanyaan
Penerapan NLP di dunia nyata adalah
A. Object Detection
B. Self-Driving cars
C. Sentiment Analysis
D. Object Segmentation
Kuis
Pertanyaan
Penerapan NLP di dunia nyata adalah
A. Object Detection
B. Self-Driving cars
C. Sentiment Analysis
D. Object Segmentation
Jawaban: C