0% found this document useful (0 votes)

536 views50 pages

BARTpho: Pre-Trained Sequence-to-Sequence Models For Vietnamese

BARTpho is a pre-trained sequence-to-sequence model for Vietnamese based on BART. It was introduced at the VinAI NLP Workshop in 2021. There are two versions - BARTpho-syllable which operates at the syllable level, and BARTpho-word which operates at the word level. BARTpho helps produce state-of-the-art performance for Vietnamese text summarization tasks by being specifically trained for the Vietnamese language.

Uploaded by

MInh Thanh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

536 views50 pages

BARTpho: Pre-Trained Sequence-to-Sequence Models For Vietnamese

Uploaded by

MInh Thanh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 50

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TP.HCM

KHOA CÔNG NGHỆ THÔNG TIN

BARTpho: Pre-trained Sequence-to-Sequence

Models for Vietnamese
Báo cáo môn Trí tuệ nhân tạo nâng cao

GVHD: Nguyễn Ngọc Thảo

Nhóm 4:
• 21C11029 - Hoàng Minh Thanh
• 21C12005 - Trần Hữu Nghĩa
• 21C11026 - Nguyễn Thành Thái
1
Introduction Paper
3
4
Motivation - Self-review
• Seq2Seq - Sequence to Sequence - 2014
• The success of these pre-trained seq2seq models has largely only English
language
• Multilingual models are not aware of the difference between Vietnamese
syllables and word tokens Click to add text
• Note that 85% of Vietnamese word types are composed of at least two
syllables
• From a societal, cultural, linguistic, cognitive and machine learning
perspective -> require model for Vietnamese languge
"chúng tôi" <> "tôi"
"nghiên cứu" -- "nghiên", "cứu"
"chúng_tôi là những_người_nghiên_cứu"
5
Introduction Paper
• BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese
• VinAI NLP Workshop 2021 (29/10/2021)
• First public large-scale monolingual sequence-to-sequence models pre-
trained for Vietnamese,
• Which are based on the seq2seq denoising autoencoder BART
• Two 2 versions BARTpho
• Syllable-level
VinAI công bố các kết quả nghiên cứu khoa học tại hội nghị hàng đầu thế giới về trí tuệ nhân tạo

• Word-level
VinAI công_bố các kết_quả nghiên_cứu khoa_học tại hội_nghị hàng_đầu thế_giới về trí_tuệ
nhân_tạo

(VinAI publishes research outputs at world-leading conferences in Artificial Intelligence)

6
Introduction Paper
• BARTpho in transformers (transformers (v4.12+))
Model #params
vinai/bartpho-syllable 396M Syllable-level - monolingual
vinai/bartpho-word 420M Word level - large-scale

• BARTpho in fairseq

• BARTpho base on BART model.

7
Resolve problems/issues
• Be used with popular libraries fairseq (Facebook - 2019) and
transformers (huggingface.co)
• Can serve as a strong baseline for future research
applications of generative natural language processing task Vietnamese

8
Compare baseline mBART (Facebook - 2020)
• Multilingual Denoising Pre-training for Neural Machine Translation
• focused only on the encoder, decoder, or reconstructing parts of the text
• fine tuned for supervised (both sentence-level and document-level) and
unsupervised machine translation
• mBART up to 12 BLEU points for low resource MT and over 5 BLEU points
Data train Data dev Data test
Original 105418 (~70%) 22642 (~15%) 22644 (~15%)
After filtering duplicate 102044 21040 20733
~70% ~15% ~15%

9
Compare baseline mBART (Facebook - 2020)

Task abstract summary document

10
Compare others

Task abstract summary document

12
Architecture
• 12 encoder and decoder layers and pre-training scheme of BART
• pre-training BART has two stages:

corrupting the input learning to

text with an arbitrary reconstruct the
noising function original text

13
Pre-training data
• Reuse the PhoBERT’s tokenizer and BPE
• PhoBERT pre-training corpus
• Used a large-scale corpus of 20GB Vietnamese texts
• Pre-training corpus of 145M word-segmented sentences (4B word tokens)

14
Architecture
• Transformer architecture
-> Attention Is All You Need
• Has fine-tune
• use a batch size of 512 sequence blocks
• learning rate of 0.0001
• etc...

15
Architecture
• Transformer architecture
-> Attention Is All You Need
• Has fine-tune
• use a batch size of 512 sequence blocks
• learning rate of 0.0001
• etc...

16
17
Transfomer evolution

BARTPho

18
Transfomer Model

19
Attention mechanism

20
Demo Multiplication

https://www.symbolab.com/graphing-calculator

21
22
23
24
25
Attention mechanism

v2 v3
v1
27
28
Multi-Head Attention Layer

29
30
31
32
33
34
Demo :
https://colab.research.google.com/github/tensorflow/tensor2tensor/blob/master/t
ensor2tensor/notebooks/hello_t2t.ipynb
35
36
37
38
39
40
41
BERT Model

42
GPT Model

43
44
BART Model

45
BART Model

46
Xoay văn bản (Document Rotation): Một
token được chọn ngẫu nhiên, văn bản được Điền văn bản (Text Infilling): Một vài đoạn văn
xoay để bắt đầu với token đó. Điều này giúp bản ngẫu nhiên được thay thế bằng [MASK]. Đặ
cho mô hình học được đâu và điểm bắt đầu c biệt, đoạn văn bản có thể là rỗng.
của văn bản.

Mặt nạ (Token Masking): Như

Xóa token (Token Deletaion): BERT, các token được lấy ngẫu nhiên và thay thế
Các token ngẫu nhiên được xóa khỏi xâu đầu bởi [MASK]
vào, mô hình cần xoá được token nào bị xóa.
Tráo câu ngẫu nhiên (Sentence
Permutation): Văn bản được chia thành các câu và đượ
c tráo ngẫu nhiên.
47
Minh họa BARTpho

48
Click to add text

49
Demo
• Colab :
https://colab.research.google.com/drive/1JRSGghV7oWgRSLHqqyxpfZg
UjxSqz1YB?usp=sharing

• Source code :
https://github.com/VinAIResearch/BARTpho

• Ours : https://github.com/hmthanh/BARTpho_code

50
Conclusion
• BARTPho is absolutely base on BART to Vietnamese language
• The main contribution of the author is weight training and
tokenization in Vietnamese language
• Via result evaluate BARTpho helps produce the SOTA performance for
the Vietnamese text summarization task
• Outstanding successes SOTA -> premise for research
• BARTphosyllable and BARTphoword—the first pre-trained and largescale
monolingual seq2seq models for Vietnamese.

51
52

Prepare 3 Test Book
100% (2)
Prepare 3 Test Book
114 pages
Đề chuẩn S1-Openlab-ver16062013
100% (1)
Đề chuẩn S1-Openlab-ver16062013
3 pages
Bai Tap Big Mang May Tinh
No ratings yet
Bai Tap Big Mang May Tinh
5 pages
Essentials of English Grammar: Otto Jespersen
No ratings yet
Essentials of English Grammar: Otto Jespersen
98 pages
Connect+Plus+4++Revision+Mr Mostafa Abd El-Aal
No ratings yet
Connect+Plus+4++Revision+Mr Mostafa Abd El-Aal
64 pages
Advisability in The Past
No ratings yet
Advisability in The Past
10 pages
Convolutional Neural Networks: Shusen Wang
No ratings yet
Convolutional Neural Networks: Shusen Wang
75 pages
Too and Enough: It's Too Short. You're Right. It Isn't Long
No ratings yet
Too and Enough: It's Too Short. You're Right. It Isn't Long
3 pages
Punctuation Mark Sample Test
No ratings yet
Punctuation Mark Sample Test
4 pages
Few-Shot Learning: Shusen Wang
No ratings yet
Few-Shot Learning: Shusen Wang
42 pages
RNN + RL: Shusen Wang
No ratings yet
RNN + RL: Shusen Wang
51 pages
Recurrent Neural Networks (RNNS) : Shusen Wang
No ratings yet
Recurrent Neural Networks (RNNS) : Shusen Wang
33 pages
Common CNN Architectures: Shusen Wang
No ratings yet
Common CNN Architectures: Shusen Wang
67 pages
2022 Streaming Summit Netflix
No ratings yet
2022 Streaming Summit Netflix
100 pages
Siamese Network: Shusen Wang
No ratings yet
Siamese Network: Shusen Wang
51 pages
Policy-Based Reinforcement Learning: Shusen Wang
No ratings yet
Policy-Based Reinforcement Learning: Shusen Wang
46 pages
Neural Machine Translation: Shusen Wang
No ratings yet
Neural Machine Translation: Shusen Wang
57 pages
Text Generation: Shusen Wang
No ratings yet
Text Generation: Shusen Wang
49 pages
Bart - Bartpho: Bartpho: Pre-Trained Sequence-To-Sequence Models For Vietnamese
No ratings yet
Bart - Bartpho: Bartpho: Pre-Trained Sequence-To-Sequence Models For Vietnamese
19 pages
Nhap Mon Cong Nghe Phan Mem Thac Binh Cuong (Cuuduongthancong - Com)
No ratings yet
Nhap Mon Cong Nghe Phan Mem Thac Binh Cuong (Cuuduongthancong - Com)
214 pages
Value-Based Reinforcement Learning: Shusen Wang
No ratings yet
Value-Based Reinforcement Learning: Shusen Wang
53 pages
Handouts Grade12 Unit 4 Updated
No ratings yet
Handouts Grade12 Unit 4 Updated
12 pages
Identify The Tense
No ratings yet
Identify The Tense
13 pages
Thiết Kế Hệ Thống Nhúng
No ratings yet
Thiết Kế Hệ Thống Nhúng
275 pages
Convex Function vs. Nonconvex Function: A Little Bit Theory: Shusen Wang
No ratings yet
Convex Function vs. Nonconvex Function: A Little Bit Theory: Shusen Wang
23 pages
Neural Architecture Search: Basics
No ratings yet
Neural Architecture Search: Basics
20 pages
Bahasa Inggris
No ratings yet
Bahasa Inggris
5 pages
Simple Past Passive: Affirmative Form Question Form
No ratings yet
Simple Past Passive: Affirmative Form Question Form
2 pages
Data Poisoning Attacks: Shusen Wang
No ratings yet
Data Poisoning Attacks: Shusen Wang
17 pages
Direction: On Identifying Concepts, Read The Questions Carefully and Identify What Is Needed in Each
No ratings yet
Direction: On Identifying Concepts, Read The Questions Carefully and Identify What Is Needed in Each
6 pages
英语七上（沪教版）
100% (1)
英语七上（沪教版）
170 pages
NAIO - Work Book
No ratings yet
NAIO - Work Book
4 pages
Paragraph + Graphic Organizer Rubric
No ratings yet
Paragraph + Graphic Organizer Rubric
3 pages
Activity No.7
No ratings yet
Activity No.7
3 pages
Cial Tial
No ratings yet
Cial Tial
2 pages
Giáo Trình Kỹ Thuật Lập Trình C
No ratings yet
Giáo Trình Kỹ Thuật Lập Trình C
217 pages
Câu hỏiontapattt
No ratings yet
Câu hỏiontapattt
117 pages
Bart Pho
No ratings yet
Bart Pho
5 pages
SÁch tiếng anh b1
No ratings yet
SÁch tiếng anh b1
105 pages
Graduation Project
No ratings yet
Graduation Project
122 pages
Rubric - Dialogue
No ratings yet
Rubric - Dialogue
3 pages
International English Language Testing System (Or Better Known As IELTS)
No ratings yet
International English Language Testing System (Or Better Known As IELTS)
4 pages
BS3 Sol 24TC 1
No ratings yet
BS3 Sol 24TC 1
24 pages
Richards J C Interchange Intro 4th Edition Student S Book
No ratings yet
Richards J C Interchange Intro 4th Edition Student S Book
162 pages
Dots Chart
No ratings yet
Dots Chart
3 pages
# Team Username Isleader
No ratings yet
# Team Username Isleader
56 pages
Bai-Giang - PTTK-HTTT - Ch3-Ch4
No ratings yet
Bai-Giang - PTTK-HTTT - Ch3-Ch4
181 pages
Grammar
No ratings yet
Grammar
99 pages
Project Spring2023 Eng FINAL SV
No ratings yet
Project Spring2023 Eng FINAL SV
41 pages
Listening Rubric
No ratings yet
Listening Rubric
1 page
Data Warehouse Concepts: Quách Đình Hoàng Hoangqd@hcmute - Edu.vn
No ratings yet
Data Warehouse Concepts: Quách Đình Hoàng Hoangqd@hcmute - Edu.vn
35 pages
Nhap Mon CNTT
No ratings yet
Nhap Mon CNTT
110 pages
BARTpho A0 Poster
No ratings yet
BARTpho A0 Poster
1 page
Simple Past, Past Continous, Pr. Perfect, and Pr. Perfect Continous
No ratings yet
Simple Past, Past Continous, Pr. Perfect, and Pr. Perfect Continous
4 pages
(ENG) Class Information
No ratings yet
(ENG) Class Information
2 pages
Tài liệu thiết kế yêu cầu phần mềm
No ratings yet
Tài liệu thiết kế yêu cầu phần mềm
19 pages
Trac Nghiem KTMT
No ratings yet
Trac Nghiem KTMT
21 pages
Can Must Should
No ratings yet
Can Must Should
3 pages
Sophos XG Firewall Virtual Appliance: Getting Started Guide
No ratings yet
Sophos XG Firewall Virtual Appliance: Getting Started Guide
10 pages
Wso2 Esb PDF
No ratings yet
Wso2 Esb PDF
62 pages
Bai-Giang - PTTK-HTTT - Ch1-Ch2
No ratings yet
Bai-Giang - PTTK-HTTT - Ch1-Ch2
98 pages
Homework 1 - Lista 2
No ratings yet
Homework 1 - Lista 2
9 pages
284497072 CHƯƠNG TRINH VẼ CAY AND OR PHAN TICH CU PHAP CAU VA PHAN TICH THƠ PDF
No ratings yet
284497072 CHƯƠNG TRINH VẼ CAY AND OR PHAN TICH CU PHAP CAU VA PHAN TICH THƠ PDF
19 pages
Flowgorithm - Documentation - Expressions
No ratings yet
Flowgorithm - Documentation - Expressions
2 pages
Answers
No ratings yet
Answers
15 pages
CHƯƠNG TRÌNH VẼ CÂY AND/OR PHÂN TÍCH CÚ PHÁP CÂU VÀ PHÂN TÍCH THƠ
100% (2)
CHƯƠNG TRÌNH VẼ CÂY AND/OR PHÂN TÍCH CÚ PHÁP CÂU VÀ PHÂN TÍCH THƠ
19 pages
BTTH5
No ratings yet
BTTH5
4 pages
BNSG-9000 Firmware User's Guide
100% (1)
BNSG-9000 Firmware User's Guide
38 pages
Bai Tap Thuc Hanh 5 (Updated)
No ratings yet
Bai Tap Thuc Hanh 5 (Updated)
5 pages
ÔN TẬP CUỐI MÔN OS
No ratings yet
ÔN TẬP CUỐI MÔN OS
16 pages
Lab 6 IPv4 and NMAP - en
No ratings yet
Lab 6 IPv4 and NMAP - en
6 pages
TS 10 - 407 MQC - HCM - Anh Đinh KEY
No ratings yet
TS 10 - 407 MQC - HCM - Anh Đinh KEY
21 pages
RADL TTho
No ratings yet
RADL TTho
64 pages
Tim Hieu Ve Deep Learning
100% (1)
Tim Hieu Ve Deep Learning
78 pages
Nguyen Vo Thuan Thien (B2005893) : Part 1: Build The Linux Kernel (2.0 Points)
No ratings yet
Nguyen Vo Thuan Thien (B2005893) : Part 1: Build The Linux Kernel (2.0 Points)
8 pages
Sentiment Analysis For Vietnamese: Binh Thanh Kieu Son Bao Pham
No ratings yet
Sentiment Analysis For Vietnamese: Binh Thanh Kieu Son Bao Pham
6 pages
DLL Injecting
No ratings yet
DLL Injecting
64 pages
Organizational Meeting-Proposed Agenda: Questions 196-200
No ratings yet
Organizational Meeting-Proposed Agenda: Questions 196-200
2 pages
History of Dart
No ratings yet
History of Dart
2 pages
Tim Hieu Laravel
No ratings yet
Tim Hieu Laravel
32 pages
Đề Thi Đồ Họa Máy Tính Đề Số 211 Kỳ 1 Năm Học 2022-2023 - UET
No ratings yet
Đề Thi Đồ Họa Máy Tính Đề Số 211 Kỳ 1 Năm Học 2022-2023 - UET
4 pages
Quiz 3
No ratings yet
Quiz 3
13 pages
Câu hỏi DOM - DOM Quiz - Chương trình học của IT4409 - MOOC daotao.ai
No ratings yet
Câu hỏi DOM - DOM Quiz - Chương trình học của IT4409 - MOOC daotao.ai
4 pages
ĐÁP ÁN LÍ THUYẾT AN TOÀN VÀ BẢO MẬT THÔNG TIN
No ratings yet
ĐÁP ÁN LÍ THUYẾT AN TOÀN VÀ BẢO MẬT THÔNG TIN
40 pages
DB Design Exercises
No ratings yet
DB Design Exercises
14 pages
Fighter4 Teacher'SBook
No ratings yet
Fighter4 Teacher'SBook
69 pages
Language Maintenace and Language Shift
No ratings yet
Language Maintenace and Language Shift
1 page
Advantages Disadvantages: 3. Stateful Multilayer Inspection Firewall
No ratings yet
Advantages Disadvantages: 3. Stateful Multilayer Inspection Firewall
2 pages
NguyenTranHuongGiang BTLT1
No ratings yet
NguyenTranHuongGiang BTLT1
6 pages
IT01 - TA Chuyên Nghành (1) - Đã M Khóa
No ratings yet
IT01 - TA Chuyên Nghành (1) - Đã M Khóa
19 pages
Lập Trình Trên Bộ Xử Lý Song Song GPU Có Hỗ Trợ Lõi CUDA
No ratings yet
Lập Trình Trên Bộ Xử Lý Song Song GPU Có Hỗ Trợ Lõi CUDA
18 pages
Topic: Subject, Verb, Object: Department of English
No ratings yet
Topic: Subject, Verb, Object: Department of English
13 pages
Focus3 2E LessonPlans U03 Lesson12 13 Review
No ratings yet
Focus3 2E LessonPlans U03 Lesson12 13 Review
2 pages
Cách Luyện Writing Task 1 VSTEP
No ratings yet
Cách Luyện Writing Task 1 VSTEP
7 pages
Tong Hop Cac Bai Lab Ccna Tu Vnpro
No ratings yet
Tong Hop Cac Bai Lab Ccna Tu Vnpro
55 pages
CV Hoangduclong
No ratings yet
CV Hoangduclong
3 pages
Midtest
No ratings yet
Midtest
3 pages
Tong Hop Bai Tap Tieng Anh Chuyen Nganh
No ratings yet
Tong Hop Bai Tap Tieng Anh Chuyen Nganh
84 pages
De Thi Mang May Tinh 1
No ratings yet
De Thi Mang May Tinh 1
33 pages
(Shared) - GPT
No ratings yet
(Shared) - GPT
32 pages
ĐỀ CƯƠNG ÔN TẬP HP. TACN. CNTT - 10-23
No ratings yet
ĐỀ CƯƠNG ÔN TẬP HP. TACN. CNTT - 10-23
6 pages
Sanskrit Class 10
No ratings yet
Sanskrit Class 10
1 page
Bảng phân phối chuẩn Z
No ratings yet
Bảng phân phối chuẩn Z
1 page
Writing Vstep
No ratings yet
Writing Vstep
5 pages