0% menganggap dokumen ini bermanfaat (0 suara)

42 tayangan60 halaman

01 - NLP Introduction To NLP

Dokumen tersebut membahas tentang aturan-aturan dalam kelas Natural Language Processing (NLP) Squad. Aturan tersebut meliputi toleransi keterlambatan 15 menit, izin kehadiran harus dikonfirmasi dengan alasan penting, sikap positif dan aktif dalam pembelajaran, serta penamaan Zoom sesuai dengan nama kelas dan nama lengkap peserta didik.

Diunggah oleh

Muhammad

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

42 tayangan60 halaman

01 - NLP Introduction To NLP

Diunggah oleh

Muhammad

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 60

Nama

Informasi tambahan

email{at}orbitfutureacademy.sch.id

Linkedin / web
Our Rules – NLP Squad
Kehadiran:
• Toleransi keterlambatan 15 menit.
• Izin kehadiran memberikan konfirmasi dengan alasan yang penting kepada homeroom coach.

General Rule:
• Positive attitude. Hargai semua orang di kelas ini.
• Aktif dalam pembelajaran.
• Jika terjadi hal di luar kendali seperti mati listrik dan lain sebagainya, lakukan konfirmasi via chat.
• Rename nama zoom: NamaKelas_NamaLengkap.

Agenda Khusus:
• Mengisi logbook pada web Kampus Merdeka.
• Mengisi presensi dan feedback form.
Pre-Test NLP

https://s.id/pretest-nlp
Learning Objective – NLP Squad
1. Introduction to NLP
2. Text Representation
3. Text Classification
4. Text Summarization
5. Word Embedding Techniques
6. Deep Learning in NLP
7. Transfer Learning for NLP 1: Transformer Model
8. Transfer Learning for NLP 2: BERT & GPT
9. Speech Recognition
AI Module 10
Natural Language Processing (NLP)
Mastery Section 1
Course Introduction to Natural Language
Processing
Learning Objectives
Di akhir modul ini, Anda akan mendapatkan:
▪ Memahami NLP dan evolusinya.

▪ Memahami area aplikasi NLP dan penerapannya.

▪ Memahami NLP pipeline secara umum dan teknik-tekniknya
▪ Memahami tantangan dan masa depan NLP
• Pengertian NLP
INTRODUCTION • A rea A plikasi NLP
01 TO NLP • Bahasa Manusia vs Bahasa Mesin

• A kuisisi Data
• T ext Extraction and Cleaning
02 NLP PIPELINE • T ext Preprocessing
• Rekayasa Fitur

Agenda
• Pemodelan & Evaluasi Model

TANTANGAN DAN • T antangan dalam NLP

03
MASA DEPAN NLP • Masa Depan NLP

• Ringkasan
04 KESIMPULAN • Kuis
01 INTRODUCTION TO NLP

• Pengertian NLP
• Area aplikasi NLP
• Bahasa manusia vs mesin
AI Domains: Recap

Tabular Speech

Image Sensor

Email Numerik

Dokumen Video
Jadi, apa itu NLP?

NLP cabang dari kecerdasan buatan yang berhubungan dengan interaksi

antara komputer dan manusia menggunakan bahasa alami.
NLP dan Linguistik

Hi, kita disini!

Baca selanjutnya:
J. Tsujii, “Natural Language Processing and Computational Linguistics,” Computational
Linguistics, pp. 1–21, Dec. 2021.

https://doi.org/10.1162/coli_a_00420
NLP = NLU + NLG
• NLP adalah kemampuan komputer
memahami bahasa manusia dalam bentuk
tertulis (teks) dan verbal (ucapan).
• NLU adalah bagian NLP yang
menggunakan analisis sintaksis dan
semantik untuk menentukan makna
kalimat (membaca).
• NLG adalah bagian NLP
untuk menghasilkan respons bahasa
manusia berdasarkan beberapa input
(menulis).
Sejarah NLP – Era Klasik
Sejarah NLP – Era Deep Learning

Baca selanjutnya:
P. Johri, S. K. Khatri, A. T. Al-Taani, M. Sabharwal, S. Suvanov, and A. Kumar, “Natural
Language Processing: History, Evolution, Application, and Future Work,” Lecture Notes in
Networks and Systems, pp. 365–375, 2021, doi: 10.1007/978-981-15-9712-1_31.

https://doi.org/10.1007/978-981-15-9712-1_31
Untuk apa NLP digunakan?

Tanpa kita sadari, Natural Language Processing

adalah kekuatan pendorong di balik aplikasi yang
umum kita gunakan saat ini.
Question Answering System (QAS)

Kemampuan komputer untuk

menjawab pertanyaan yang
diberikan oleh pengguna.

Baca selanjutnya:
A. Bouziane, D. Bouchiha, N. Doumi, and M. Malki,
“Question Answering Systems: Survey and
Trends,” Procedia Computer Science, vol. 73, pp. 366–375,
2015.

https://doi.org/10.1016/j.procs.2015.12.005
Information Retrieval

Kemampuan komputer mencari

konten yang relevan berdasarkan
query (kata kunci) yang diberikan
pengguna.

Baca selanjutnya:
H. K. Azad and A. Deepak, “Query expansion techniques for
information retrieval: A survey,” Information Processing &
Management, vol. 56, no. 5, pp. 1698–1735, Sep. 2019.

https://doi.org/10.1016/j.ipm.2019.05.009
Text Summarization

Kemampuan komputer untuk

meringkas konten dengan
mencari informasi paling penting
atau relevan dalam konten asli.

Baca selanjutnya:
W. S. El-Kassas, C. R. Salama, A. A. Rafea, and H. K.
Mohamed, “Automatic text summarization: A
comprehensive survey,” Expert Systems with Applications,
vol. 165, p. 113679, Mar. 2021

https://doi.org/10.1016/j.eswa.2020.113679
Machine Translation

Kemampuan komputer untuk

menerjemahkan konten dari satu
bahasa ke bahasa lain
secara otomatis.

Baca selanjutnya:
H. Wang, H. Wu, Z. He, L. Huang, and K. Ward Church,
“Progress in Machine Translation,” Engineering, Jul. 2021.

https://doi.org/10.1016/j.eng.2021.03.023
Text Classification

Kemampuan komputer untuk

mengkategorikan konten ke satu
atau lebih kategori secara
otomatis.

Baca selanjutnya:
B. Altınel and M. C. Ganiz, “Semantic text classification: A
survey of past and recent advances,” Information
Processing & Management, vol. 54, no. 6, pp. 1129–1153,
Nov. 2018.

https://doi.org/10.1016/j.ipm.2018.08.001
Speech Recognition

Kemampuan komputer untuk

mengenali dan menerjemahkan
bahasa lisan ke dalam teks secara
otomatis.

Baca selanjutnya:
A. P. Singh, R. Nath, and S. Kumar, “A Survey: Speech
Recognition Approaches and Techniques,” 2018 5th IEEE
Uttar Pradesh Section International Conference on
Electrical, Electronics and Computer Engineering (UPCON),
Nov. 2018.

10.1109/UPCON.2018.8596954
Mana yang lebih sulit?
Tapi, bagaimana mesin membaca?
Bahasa manusia vs mesin
Susunan Kata dan Artinya

Semantik Kajian yang mencakup arti dan makna kata sesungguhnya dalam satuan kalimat.

Kajian yang mencakup seluk-beluk tata bahasa (grammar & cara penulisan) dalam satuan
Sintaksis
kalimat.

Analogi dengan bahasa pemrograman :

Sintaks berbeda, semantik sama (5): 2+3 = 3+2

Sintaks sama, semantik berbeda (1 dan 1.5)
Makna dari Sebuah Kata

Wajahnya menjadi merah setelah dia mengetahui bahwa dia

mengambil tas yang salah.

Andi membeli mobil warna merah.

Wajahnya menjadi merah setelah meminum obatnya.

Hm, bagaimana dengan komputer?

Memahami Bahasa manusia adalah hal yang

sulit untuk dilakukan oleh mesin.

Lalu, bagaimana membuat komputer mengerti

Bahasa kita?
Ya! Kita perlu mengubah teks menjadi angka!
02 NLP PIPELINE

• Akuisisi Data
• Text Extraction and Cleaning
• Text Preprocessing
• Rekayasa Fitur
• Pemodelan & Evaluasi Model
NLP Pipeline
01 Akuisisi Data

Menggunakan data publik yang sudah tersedia melalui berbagai sumber seperti Hugging
Public Dataset
Face, Google Dataset Search, Kaggle, dll.

Mengumpulkan data secara langsung dari halaman web menggunakan beautiful soup,
Web Scraping
selenium, scrapy.

Product
Mengumpulkan data dari produk sendiri atau dari produk yang sudah ada. Misalnya
Intervention

Data
Menghasilkan lebih banyak data dari kumpulan dataset yang ada
Augmentation
02 Text Extraction & Cleaning
Langkah ini mengacu pada proses mengekstrak teks mentah dari data input
dengan menghapus semua informasi non-tekstual, seperti metadata, tag
HMTL dan mengonversi teks ke format yang diperlukan. Langkah ini bersifat
opsional, tergantung pada format data yang tersedia.
03 Text Preprocessing
Langkah ini mengacu pada proses menyeleksi teks agar lebih terstruktur
dengan melalui serangkaian tahapan. Tidak semua tahapan text preprocessing
harus dilakukan, tergantung pada tugas dan domain yang akan dikerjakan.
03 Text Processing
Lower Case & Remove Whitespaces

Tahapan paling sederhana, mudah, dan efektif pada text preprocessing.

Indonesia ≠ INDONESIA ≠ indonesia

03 Text Processing
Regular Expression (ReGex)

RegEx adalah string teks (urutan karakter) untuk membuat pola yang
membantu mencocokkan, menemukan, dan mengelola teks.
03 Text Processing
Remove URLs & Email
03 Text Processing
Remove Numbers & Punctuations
03 Text Processing
Remove Emoji & Emoticon
03 Text Processing
Emoji & Emoticon Conversion
“😀 → grinning_face atau :-) → happy_face_smiley”
03 Text Processing
Slang Word Normalization

Tahapan mengubah kata slang menjadi kata baku.

“gmn, gims → bagaimana, jwb → jawab, gue, gw → saya”
03 Text Processing
Stemming & Lemmatization

Stemming Tahapan menghilangkan prefix dan suffix menjadikan kata ke bentuk dasar.

Tahapan mengubah kata ke bentuk dasar dengan memperhatikan pengetahuan

Lemmatization
linguistik.
03 Text Processing
Stemming Indonesian

Pada Bahasa Indonesia kita dapat menggunakan library Sastrawi

“mendengarkan, dengarkan, didengarkan → dengar”
03 Text Processing
Part of Speech Tagging

POS Tagging Memberi label pada kata-kata dalam suatu teks menurut jenis katanya.
03 Text Preprocessing
Tokenization

Tahapan pemisahan teks (kata atau kalimat) menjadi potongan yang

disebut token. Kalimat, kata-kata, angka, simbol, tanda baca, dan
entitas penting lainnya dapat dianggap sebagai token.

“Selamat datang di Orbit Future Academy !”

Selamat datang di Orbit Future Academy !

Token
03 Text Preprocessing
Tokenization
sent_tokenize()

Memisahkan kalimat
pada suatu paragraf.

word_tokenize()

Memisahkan kata
pada suatu kalimat.
03 Text Processing
Stop words Removal

Tahapan menghapus kata-kata berinformasi rendah (noise). Karakteristik

utama pemilihan stop word adalah kata yang mempunyai frekuensi
kemunculan yang tinggi misalnya kata penghubung seperti ‘dan’, ‘atau’,
‘tapi.

Tidak ada aturan pasti dalam menentukan stop word yang akan digunakan.
Penentuan stop word bisa disesuaikan dengan domain atau tugas yang sedang
diselesaikan.
03 Text Processing
Stop words Removal
Tambahkan stop word
berdasarkan tugas yang
akan diselesaikan
04 Rekayasa Fitur
Rekayasa fitur adalah seni. Pada NLP, dapat disebut ‘representasi teks’.

Langkah ini bertujuan untuk menangkap karakteristik teks menjadi vektor

numerik yang dapat dipahami oleh algoritma.
04 Rekayasa Fitur
Machine Learning vs Deep Learning

Pertemuan ke 2:
Text Representation Pertemuan ke 5:
Word Embedding
05 Pemodelan
Mulai latih dan kembangkan model NLP. Saat ini, banyak model dikembangkan
berbasis deep learning. Sehingga, membutuhkan sumber daya komputasi yang
tinggi.
06 Evaluasi Model
Dalam setiap pengembangan model AI, langkah kuncinya adalah mengukur
seberapa ‘bagus’ model yang dibuat.

Keberhasilan pada langkah ini meliputi:

1. Menggunakan metrik yang tepat untuk evaluasi model;
2. Mengikuti proses evaluasi yang tepat;

Baca selanjutnya:
M.-A. Clinciu, A. Eshghi, and H. Hastie, “A Study of Automatic Metrics for the
Evaluation of Natural Language Explanations,” 2387. Accessed: Mar. 20,
2022.

https://aclanthology.org/2021.eacl-main.202.pdf
06 Evaluasi Model

Metric Aplikasi
Accuracy Banyak digunakan untuk klasifikasi teks, misalnya sentiment analysis
Precision Banyak digunakan jika kesalahan di kelas positif lebih penting daripada
kesalahan di kelas negatif, misalnya prediksi penyakit.
Recall Banyak digunakan jika pengambilan hasil kelas positif lebih penting,
misalnya pencarian e-commerce atau tugas information-retrieval lainnya.
Mean Reciprocal Banyak digunakan untuk tugas information-retrieval.
Rank (MRR)
Bilingual Evaluation Banyak digunakan untuk tugas machine translation dan chatbot.
Understudy (BLUE)

Dan banyak lagi …

TANTANGAN DAN
03 MASA DEPAN NLP

• Tantangan NLP
• Masa depan NLP
Tantangan
• Sarkasme
• Ambiguitas kata dan kalimat
• Kesalahan dalam teks atau ucapan
• Penggunaan bahasa gaul
• Konteks bahasa
• Bahasa khusus sesuai domain (kesehatan, sains, sejarah)
• Bahasa dengan sumber daya yang sedikit
• Dataset Bahasa Indonesia yang terbatas
Masa Depan NLP
• Pengenalan emosi
• Bahasa berkembang secara dinamis, analisis sintaks seperti struktur bahasa
akan terus ada.
• Kebutuhan AI untuk faham mengenai makna dan logika dari teks dan suara
akan terus dibutuhkan
04 KESIMPULAN

• Ringkasan
• Kuis
Ringkasan
1. NLP adalah cabang keilmuan dari kecerdasan buatan yang mempelajari
interaksi antara komputer dan manusia menggunakan bahasa alami.
2. NLP terdiri dari NLU (kemampuan membaca) dan NLG (kemampuan
menulis).
3. Area aplikasi NLP: QAS, information retrieval, text summarization, text
classification, machine translation.
4. NLP pipeline merujuk pada langkah-langkah yang dilakukan untuk
membangun sistem berbasis NLP. Secara umum terdiri dari: akuisisi
data, text cleaning, text processing, rekayasa fitur, pemodelan, evaluasi
model, deployment dan monitoring.
5. Tantangan utama NLP adalah sarkasme, kesalahan Bahasa (typo),
penggunaan Bahasa gaul, dan ketersediaan Bahasa.
6. Masa depan NLP meliputi pengenalan emosi, kebutuhan pemahaman
Bahasa akan terus dibutuhkan pada semua bidang kehidupan manusia.
Kuis

Pertanyaan
Penerapan NLP di dunia nyata adalah
A. Object Detection
B. Self-Driving cars
C. Sentiment Analysis
D. Object Segmentation
Kuis

Pertanyaan
Penerapan NLP di dunia nyata adalah
A. Object Detection
B. Self-Driving cars
C. Sentiment Analysis
D. Object Segmentation

Jawaban: C

Anda mungkin juga menyukai

Modul NLP
Belum ada peringkat
Modul NLP
32 halaman
Makalah Yulia Sani Putri - Pengenalan Natural Languange Procesing
Belum ada peringkat
Makalah Yulia Sani Putri - Pengenalan Natural Languange Procesing
15 halaman
Summarizer Text Menggunakan Library Sast
Belum ada peringkat
Summarizer Text Menggunakan Library Sast
15 halaman
KELOMPOK 7 (Natural Language Processing)
Belum ada peringkat
KELOMPOK 7 (Natural Language Processing)
13 halaman
Natural Language Processing
Belum ada peringkat
Natural Language Processing
25 halaman
Laporan Natural Language Toolkit - Alya, Diky, & Ardi - Temu Kembali Informasi - IFGabExt
Belum ada peringkat
Laporan Natural Language Toolkit - Alya, Diky, & Ardi - Temu Kembali Informasi - IFGabExt
12 halaman
Modul 5d - Natural Language Processing
Belum ada peringkat
Modul 5d - Natural Language Processing
164 halaman
Intro To NLP - Gbh-Amn
Belum ada peringkat
Intro To NLP - Gbh-Amn
68 halaman
Diktat PBA Genap 2023
Belum ada peringkat
Diktat PBA Genap 2023
99 halaman
Python NLTK Docs
Belum ada peringkat
Python NLTK Docs
13 halaman
Rangkuman Quiz AI
Belum ada peringkat
Rangkuman Quiz AI
6 halaman
KecerdasanBuatan NLU Meylinda2213025065
Belum ada peringkat
KecerdasanBuatan NLU Meylinda2213025065
7 halaman
Kecerdasan Buatan - 221530001 - Omarius Halawa
Belum ada peringkat
Kecerdasan Buatan - 221530001 - Omarius Halawa
16 halaman
M01 - Pengenalan NLP
Belum ada peringkat
M01 - Pengenalan NLP
35 halaman
Rangkuman Pertemuan 7
Belum ada peringkat
Rangkuman Pertemuan 7
1 halaman
Slide 1 Pengantar NLP
Belum ada peringkat
Slide 1 Pengantar NLP
44 halaman
Pertemuan 1
Belum ada peringkat
Pertemuan 1
32 halaman
TGS Ai
Belum ada peringkat
TGS Ai
12 halaman
Natural Language Processing
Belum ada peringkat
Natural Language Processing
2 halaman
KecerdasanBuatan NLU Meylinda2213025065 Compressed
Belum ada peringkat
KecerdasanBuatan NLU Meylinda2213025065 Compressed
7 halaman
Materi AI Kel 6-1
Belum ada peringkat
Materi AI Kel 6-1
17 halaman
Natural Language Processing 1
Belum ada peringkat
Natural Language Processing 1
22 halaman
Buletin Aptikom 072020 NLP
Belum ada peringkat
Buletin Aptikom 072020 NLP
16 halaman
7th Meeting of Ai - NLP
Belum ada peringkat
7th Meeting of Ai - NLP
43 halaman
Makalah Kecerdasan Buatan KLP 3
Belum ada peringkat
Makalah Kecerdasan Buatan KLP 3
11 halaman
Ringkasan Vidio NLP - Widianti
Belum ada peringkat
Ringkasan Vidio NLP - Widianti
4 halaman
27-Text Mining Dan NLP
Belum ada peringkat
27-Text Mining Dan NLP
30 halaman
Machine Learning Minggu Ke 2
Belum ada peringkat
Machine Learning Minggu Ke 2
17 halaman
3199 10308 1 PB
Belum ada peringkat
3199 10308 1 PB
6 halaman
Implementasi Perintah Menampilkan Data M
Belum ada peringkat
Implementasi Perintah Menampilkan Data M
8 halaman
01d18381 4ebe 4796 807c b06fd6ffc4b0 Text Preprocessing
Belum ada peringkat
01d18381 4ebe 4796 807c b06fd6ffc4b0 Text Preprocessing
22 halaman
Hidayat Tulloh - 312110110
Belum ada peringkat
Hidayat Tulloh - 312110110
12 halaman
Natural Language Processing 3
Belum ada peringkat
Natural Language Processing 3
18 halaman
Minggu Ke 11 UGTV TeknoKecerdasanArtifisial
Belum ada peringkat
Minggu Ke 11 UGTV TeknoKecerdasanArtifisial
81 halaman
Hidayat Tulloh - 312110110
Belum ada peringkat
Hidayat Tulloh - 312110110
13 halaman
MachineLearning Sesi13 Natural Language Processing
Belum ada peringkat
MachineLearning Sesi13 Natural Language Processing
32 halaman
Modul1 KB
Belum ada peringkat
Modul1 KB
9 halaman
Luthfia Bilqis - Tugas AI - 1
Belum ada peringkat
Luthfia Bilqis - Tugas AI - 1
10 halaman
Eam Teaching: Natural Language Processing (NLP)
100% (1)
Eam Teaching: Natural Language Processing (NLP)
52 halaman
Modul 1 Natural Language Processing Dengan Python Dan Jupyter
Belum ada peringkat
Modul 1 Natural Language Processing Dengan Python Dan Jupyter
8 halaman
Materi H5 Sesi1 NLP Intro
Belum ada peringkat
Materi H5 Sesi1 NLP Intro
54 halaman
Rifki Satya Tugas Ringkasan
Belum ada peringkat
Rifki Satya Tugas Ringkasan
2 halaman
4 NaturalLanguageProcessing KecerdasanBuatan KamalFadli 11180910000025
Belum ada peringkat
4 NaturalLanguageProcessing KecerdasanBuatan KamalFadli 11180910000025
25 halaman
Ai 7
Belum ada peringkat
Ai 7
34 halaman
TF075672
Belum ada peringkat
TF075672
8 halaman
Natural Processing Language - Fahmi Faturrohman
Belum ada peringkat
Natural Processing Language - Fahmi Faturrohman
51 halaman
132-Article Text-203-2-10-20221003
Belum ada peringkat
132-Article Text-203-2-10-20221003
14 halaman
Materi 2 - PRE PROCESSING DOKUMEN - P2
Belum ada peringkat
Materi 2 - PRE PROCESSING DOKUMEN - P2
17 halaman
Big Data Computing Cognitive - NPL
Belum ada peringkat
Big Data Computing Cognitive - NPL
8 halaman
BAB II Landasan Teori
Belum ada peringkat
BAB II Landasan Teori
14 halaman
Penambangan Teks (Text Mining)
100% (2)
Penambangan Teks (Text Mining)
16 halaman
AI & Komputer Masa Depan
Belum ada peringkat
AI & Komputer Masa Depan
51 halaman
Task 1 Thinking Skill
Belum ada peringkat
Task 1 Thinking Skill
9 halaman
NLP-Pertemuan2-Pemrosesan Data Teks
Belum ada peringkat
NLP-Pertemuan2-Pemrosesan Data Teks
15 halaman
Purple Creative Concept Map Chart (A2 (Horizontal) ) - 20240928 - 103025 - 0000
Belum ada peringkat
Purple Creative Concept Map Chart (A2 (Horizontal) ) - 20240928 - 103025 - 0000
1 halaman
Tugas Kecerdasan Buatan
Belum ada peringkat
Tugas Kecerdasan Buatan
4 halaman
Luthfia Bilqis Meyta Putri - Tugas AI - 1 2
Belum ada peringkat
Luthfia Bilqis Meyta Putri - Tugas AI - 1 2
10 halaman
Minggu 1 - PBA
Belum ada peringkat
Minggu 1 - PBA
17 halaman