0% menganggap dokumen ini bermanfaat (0 suara)
42 tayangan60 halaman

01 - NLP Introduction To NLP

Dokumen tersebut membahas tentang aturan-aturan dalam kelas Natural Language Processing (NLP) Squad. Aturan tersebut meliputi toleransi keterlambatan 15 menit, izin kehadiran harus dikonfirmasi dengan alasan penting, sikap positif dan aktif dalam pembelajaran, serta penamaan Zoom sesuai dengan nama kelas dan nama lengkap peserta didik.

Diunggah oleh

Muhammad
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
42 tayangan60 halaman

01 - NLP Introduction To NLP

Dokumen tersebut membahas tentang aturan-aturan dalam kelas Natural Language Processing (NLP) Squad. Aturan tersebut meliputi toleransi keterlambatan 15 menit, izin kehadiran harus dikonfirmasi dengan alasan penting, sikap positif dan aktif dalam pembelajaran, serta penamaan Zoom sesuai dengan nama kelas dan nama lengkap peserta didik.

Diunggah oleh

Muhammad
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 60

Nama

Informasi tambahan

email{at}orbitfutureacademy.sch.id

Linkedin / web
Our Rules – NLP Squad
Kehadiran:
• Toleransi keterlambatan 15 menit.
• Izin kehadiran memberikan konfirmasi dengan alasan yang penting kepada homeroom coach.

General Rule:
• Positive attitude. Hargai semua orang di kelas ini.
• Aktif dalam pembelajaran.
• Jika terjadi hal di luar kendali seperti mati listrik dan lain sebagainya, lakukan konfirmasi via chat.
• Rename nama zoom: NamaKelas_NamaLengkap.

Agenda Khusus:
• Mengisi logbook pada web Kampus Merdeka.
• Mengisi presensi dan feedback form.
Pre-Test NLP

https://s.id/pretest-nlp
Learning Objective – NLP Squad
1. Introduction to NLP
2. Text Representation
3. Text Classification
4. Text Summarization
5. Word Embedding Techniques
6. Deep Learning in NLP
7. Transfer Learning for NLP 1: Transformer Model
8. Transfer Learning for NLP 2: BERT & GPT
9. Speech Recognition
AI Module 10
Natural Language Processing (NLP)
Mastery Section 1
Course Introduction to Natural Language
Processing
Learning Objectives
Di akhir modul ini, Anda akan mendapatkan:
▪ Memahami NLP dan evolusinya.

▪ Memahami area aplikasi NLP dan penerapannya.


▪ Memahami NLP pipeline secara umum dan teknik-tekniknya
▪ Memahami tantangan dan masa depan NLP
• Pengertian NLP
INTRODUCTION • A rea A plikasi NLP
01 TO NLP • Bahasa Manusia vs Bahasa Mesin

• A kuisisi Data
• T ext Extraction and Cleaning
02 NLP PIPELINE • T ext Preprocessing
• Rekayasa Fitur

Agenda
• Pemodelan & Evaluasi Model

TANTANGAN DAN • T antangan dalam NLP


03
MASA DEPAN NLP • Masa Depan NLP

• Ringkasan
04 KESIMPULAN • Kuis
01 INTRODUCTION TO NLP

• Pengertian NLP
• Area aplikasi NLP
• Bahasa manusia vs mesin
AI Domains: Recap

Tabular Speech

Image Sensor

Email Numerik

Dokumen Video
Jadi, apa itu NLP?

NLP cabang dari kecerdasan buatan yang berhubungan dengan interaksi


antara komputer dan manusia menggunakan bahasa alami.
NLP dan Linguistik

Hi, kita disini!

Baca selanjutnya:
J. Tsujii, “Natural Language Processing and Computational Linguistics,” Computational
Linguistics, pp. 1–21, Dec. 2021.

https://doi.org/10.1162/coli_a_00420
NLP = NLU + NLG
• NLP adalah kemampuan komputer
memahami bahasa manusia dalam bentuk
tertulis (teks) dan verbal (ucapan).
• NLU adalah bagian NLP yang
menggunakan analisis sintaksis dan
semantik untuk menentukan makna
kalimat (membaca).
• NLG adalah bagian NLP
untuk menghasilkan respons bahasa
manusia berdasarkan beberapa input
(menulis).
Sejarah NLP – Era Klasik
Sejarah NLP – Era Deep Learning

Baca selanjutnya:
P. Johri, S. K. Khatri, A. T. Al-Taani, M. Sabharwal, S. Suvanov, and A. Kumar, “Natural
Language Processing: History, Evolution, Application, and Future Work,” Lecture Notes in
Networks and Systems, pp. 365–375, 2021, doi: 10.1007/978-981-15-9712-1_31.

https://doi.org/10.1007/978-981-15-9712-1_31
Untuk apa NLP digunakan?

Tanpa kita sadari, Natural Language Processing


adalah kekuatan pendorong di balik aplikasi yang
umum kita gunakan saat ini.
Question Answering System (QAS)

Kemampuan komputer untuk


menjawab pertanyaan yang
diberikan oleh pengguna.

Baca selanjutnya:
A. Bouziane, D. Bouchiha, N. Doumi, and M. Malki,
“Question Answering Systems: Survey and
Trends,” Procedia Computer Science, vol. 73, pp. 366–375,
2015.

https://doi.org/10.1016/j.procs.2015.12.005
Information Retrieval

Kemampuan komputer mencari


konten yang relevan berdasarkan
query (kata kunci) yang diberikan
pengguna.

Baca selanjutnya:
H. K. Azad and A. Deepak, “Query expansion techniques for
information retrieval: A survey,” Information Processing &
Management, vol. 56, no. 5, pp. 1698–1735, Sep. 2019.

https://doi.org/10.1016/j.ipm.2019.05.009
Text Summarization

Kemampuan komputer untuk


meringkas konten dengan
mencari informasi paling penting
atau relevan dalam konten asli.

Baca selanjutnya:
W. S. El-Kassas, C. R. Salama, A. A. Rafea, and H. K.
Mohamed, “Automatic text summarization: A
comprehensive survey,” Expert Systems with Applications,
vol. 165, p. 113679, Mar. 2021

https://doi.org/10.1016/j.eswa.2020.113679
Machine Translation

Kemampuan komputer untuk


menerjemahkan konten dari satu
bahasa ke bahasa lain
secara otomatis.

Baca selanjutnya:
H. Wang, H. Wu, Z. He, L. Huang, and K. Ward Church,
“Progress in Machine Translation,” Engineering, Jul. 2021.

https://doi.org/10.1016/j.eng.2021.03.023
Text Classification

Kemampuan komputer untuk


mengkategorikan konten ke satu
atau lebih kategori secara
otomatis.

Baca selanjutnya:
B. Altınel and M. C. Ganiz, “Semantic text classification: A
survey of past and recent advances,” Information
Processing & Management, vol. 54, no. 6, pp. 1129–1153,
Nov. 2018.

https://doi.org/10.1016/j.ipm.2018.08.001
Speech Recognition

Kemampuan komputer untuk


mengenali dan menerjemahkan
bahasa lisan ke dalam teks secara
otomatis.

Baca selanjutnya:
A. P. Singh, R. Nath, and S. Kumar, “A Survey: Speech
Recognition Approaches and Techniques,” 2018 5th IEEE
Uttar Pradesh Section International Conference on
Electrical, Electronics and Computer Engineering (UPCON),
Nov. 2018.

10.1109/UPCON.2018.8596954
Mana yang lebih sulit?
Tapi, bagaimana mesin membaca?
Bahasa manusia vs mesin
Susunan Kata dan Artinya

Semantik Kajian yang mencakup arti dan makna kata sesungguhnya dalam satuan kalimat.

Kajian yang mencakup seluk-beluk tata bahasa (grammar & cara penulisan) dalam satuan
Sintaksis
kalimat.

Analogi dengan bahasa pemrograman :

Sintaks berbeda, semantik sama (5): 2+3 = 3+2


Sintaks sama, semantik berbeda (1 dan 1.5)
Makna dari Sebuah Kata

Wajahnya menjadi merah setelah dia mengetahui bahwa dia


mengambil tas yang salah.

Andi membeli mobil warna merah.

Wajahnya menjadi merah setelah meminum obatnya.


Hm, bagaimana dengan komputer?

Memahami Bahasa manusia adalah hal yang


sulit untuk dilakukan oleh mesin.

Lalu, bagaimana membuat komputer mengerti


Bahasa kita?
Ya! Kita perlu mengubah teks menjadi angka!
02 NLP PIPELINE

• Akuisisi Data
• Text Extraction and Cleaning
• Text Preprocessing
• Rekayasa Fitur
• Pemodelan & Evaluasi Model
NLP Pipeline
01 Akuisisi Data

Menggunakan data publik yang sudah tersedia melalui berbagai sumber seperti Hugging
Public Dataset
Face, Google Dataset Search, Kaggle, dll.

Mengumpulkan data secara langsung dari halaman web menggunakan beautiful soup,
Web Scraping
selenium, scrapy.

Product
Mengumpulkan data dari produk sendiri atau dari produk yang sudah ada. Misalnya
Intervention

Data
Menghasilkan lebih banyak data dari kumpulan dataset yang ada
Augmentation
02 Text Extraction & Cleaning
Langkah ini mengacu pada proses mengekstrak teks mentah dari data input
dengan menghapus semua informasi non-tekstual, seperti metadata, tag
HMTL dan mengonversi teks ke format yang diperlukan. Langkah ini bersifat
opsional, tergantung pada format data yang tersedia.
03 Text Preprocessing
Langkah ini mengacu pada proses menyeleksi teks agar lebih terstruktur
dengan melalui serangkaian tahapan. Tidak semua tahapan text preprocessing
harus dilakukan, tergantung pada tugas dan domain yang akan dikerjakan.
03 Text Processing
Lower Case & Remove Whitespaces

Tahapan paling sederhana, mudah, dan efektif pada text preprocessing.

Indonesia ≠ INDONESIA ≠ indonesia


03 Text Processing
Regular Expression (ReGex)

RegEx adalah string teks (urutan karakter) untuk membuat pola yang
membantu mencocokkan, menemukan, dan mengelola teks.
03 Text Processing
Remove URLs & Email
03 Text Processing
Remove Numbers & Punctuations
03 Text Processing
Remove Emoji & Emoticon
03 Text Processing
Emoji & Emoticon Conversion
“😀 → grinning_face atau :-) → happy_face_smiley”
03 Text Processing
Slang Word Normalization

Tahapan mengubah kata slang menjadi kata baku.


“gmn, gims → bagaimana, jwb → jawab, gue, gw → saya”
03 Text Processing
Stemming & Lemmatization

Stemming Tahapan menghilangkan prefix dan suffix menjadikan kata ke bentuk dasar.

Tahapan mengubah kata ke bentuk dasar dengan memperhatikan pengetahuan


Lemmatization
linguistik.
03 Text Processing
Stemming Indonesian

Pada Bahasa Indonesia kita dapat menggunakan library Sastrawi


“mendengarkan, dengarkan, didengarkan → dengar”
03 Text Processing
Part of Speech Tagging

POS Tagging Memberi label pada kata-kata dalam suatu teks menurut jenis katanya.
03 Text Preprocessing
Tokenization

Tahapan pemisahan teks (kata atau kalimat) menjadi potongan yang


disebut token. Kalimat, kata-kata, angka, simbol, tanda baca, dan
entitas penting lainnya dapat dianggap sebagai token.

“Selamat datang di Orbit Future Academy !”

Selamat datang di Orbit Future Academy !

Token
03 Text Preprocessing
Tokenization
sent_tokenize()

Memisahkan kalimat
pada suatu paragraf.

word_tokenize()

Memisahkan kata
pada suatu kalimat.
03 Text Processing
Stop words Removal

Tahapan menghapus kata-kata berinformasi rendah (noise). Karakteristik


utama pemilihan stop word adalah kata yang mempunyai frekuensi
kemunculan yang tinggi misalnya kata penghubung seperti ‘dan’, ‘atau’,
‘tapi.

Tidak ada aturan pasti dalam menentukan stop word yang akan digunakan.
Penentuan stop word bisa disesuaikan dengan domain atau tugas yang sedang
diselesaikan.
03 Text Processing
Stop words Removal
Tambahkan stop word
berdasarkan tugas yang
akan diselesaikan
04 Rekayasa Fitur
Rekayasa fitur adalah seni. Pada NLP, dapat disebut ‘representasi teks’.

Langkah ini bertujuan untuk menangkap karakteristik teks menjadi vektor


numerik yang dapat dipahami oleh algoritma.
04 Rekayasa Fitur
Machine Learning vs Deep Learning

Pertemuan ke 2:
Text Representation Pertemuan ke 5:
Word Embedding
05 Pemodelan
Mulai latih dan kembangkan model NLP. Saat ini, banyak model dikembangkan
berbasis deep learning. Sehingga, membutuhkan sumber daya komputasi yang
tinggi.
06 Evaluasi Model
Dalam setiap pengembangan model AI, langkah kuncinya adalah mengukur
seberapa ‘bagus’ model yang dibuat.

Keberhasilan pada langkah ini meliputi:


1. Menggunakan metrik yang tepat untuk evaluasi model;
2. Mengikuti proses evaluasi yang tepat;

Baca selanjutnya:
M.-A. Clinciu, A. Eshghi, and H. Hastie, “A Study of Automatic Metrics for the
Evaluation of Natural Language Explanations,” 2387. Accessed: Mar. 20,
2022.

https://aclanthology.org/2021.eacl-main.202.pdf
06 Evaluasi Model

Metric Aplikasi
Accuracy Banyak digunakan untuk klasifikasi teks, misalnya sentiment analysis
Precision Banyak digunakan jika kesalahan di kelas positif lebih penting daripada
kesalahan di kelas negatif, misalnya prediksi penyakit.
Recall Banyak digunakan jika pengambilan hasil kelas positif lebih penting,
misalnya pencarian e-commerce atau tugas information-retrieval lainnya.
Mean Reciprocal Banyak digunakan untuk tugas information-retrieval.
Rank (MRR)
Bilingual Evaluation Banyak digunakan untuk tugas machine translation dan chatbot.
Understudy (BLUE)

Dan banyak lagi …


TANTANGAN DAN
03 MASA DEPAN NLP

• Tantangan NLP
• Masa depan NLP
Tantangan
• Sarkasme
• Ambiguitas kata dan kalimat
• Kesalahan dalam teks atau ucapan
• Penggunaan bahasa gaul
• Konteks bahasa
• Bahasa khusus sesuai domain (kesehatan, sains, sejarah)
• Bahasa dengan sumber daya yang sedikit
• Dataset Bahasa Indonesia yang terbatas
Masa Depan NLP
• Pengenalan emosi
• Bahasa berkembang secara dinamis, analisis sintaks seperti struktur bahasa
akan terus ada.
• Kebutuhan AI untuk faham mengenai makna dan logika dari teks dan suara
akan terus dibutuhkan
04 KESIMPULAN

• Ringkasan
• Kuis
Ringkasan
1. NLP adalah cabang keilmuan dari kecerdasan buatan yang mempelajari
interaksi antara komputer dan manusia menggunakan bahasa alami.
2. NLP terdiri dari NLU (kemampuan membaca) dan NLG (kemampuan
menulis).
3. Area aplikasi NLP: QAS, information retrieval, text summarization, text
classification, machine translation.
4. NLP pipeline merujuk pada langkah-langkah yang dilakukan untuk
membangun sistem berbasis NLP. Secara umum terdiri dari: akuisisi
data, text cleaning, text processing, rekayasa fitur, pemodelan, evaluasi
model, deployment dan monitoring.
5. Tantangan utama NLP adalah sarkasme, kesalahan Bahasa (typo),
penggunaan Bahasa gaul, dan ketersediaan Bahasa.
6. Masa depan NLP meliputi pengenalan emosi, kebutuhan pemahaman
Bahasa akan terus dibutuhkan pada semua bidang kehidupan manusia.
Kuis

Pertanyaan
Penerapan NLP di dunia nyata adalah
A. Object Detection
B. Self-Driving cars
C. Sentiment Analysis
D. Object Segmentation
Kuis

Pertanyaan
Penerapan NLP di dunia nyata adalah
A. Object Detection
B. Self-Driving cars
C. Sentiment Analysis
D. Object Segmentation

Jawaban: C

Anda mungkin juga menyukai