Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017

Về kỹ thuật Attention trong mô
hình sequence-to-sequence
tại hội nghị ACL 2017
Phạm Quang Nhật Minh
Ban công nghệ tập đoàn FPT (FTI)
Viện nghiên cứu công nghệ FPT (FTRI), ĐH FPT
minhpqn2@fe.edu.vn

Why Attention Mechanism?
• Kỹ thuật Attention là một bước tiến quan trọng trong mô hình
sequence-to-sequence và đã chứng tỏ được hiệu quả trong nhiều bài
toán NLP
• Tại ACL 2017 có khoảng 15 bài báo có chữ “attention” trong tiêu đề
(so với 9 trong hội nghị năm trước)
• Kỹ thuật Attention được ứng dụng trong nhiều bài toán NLP
• Dịch máy, sinh caption cho ảnh, trả lời câu hỏi, neural dialogue, etc
Pham Quang Nhat Minh 2

Một diagram mang tính chất “bông đùa” về mức độ phổ biến của LSTM với Attention.
how to recommend "what method works best for NLP task X"?
Nguồn: https://twitter.com/IAugenstein/status/710837374473920512

Nội dung trình bày
• Cơ bản về mạng neural hồi quy (Recurrent Neural Network)
• Cơ bản về mô hình sequence-to-sequence
• Kỹ thuật Attention trong mô hình mạng sequence-to-sequence
• Các nghiên cứu về kỹ thuật Attention tại hội nghị ACL 2017
• Một số nghiên cứu đáng quan tâm khác tại ACL 2017
• Kết luận

Giới thiệu chung về mạng neural hồi quy (RNN)
• Được áp dụng rất rộng rãi trong các bài toán xử lý ngôn ngữ tự nhiên
(NLP)
• Do RNN mô hình hóa được bản chất của dữ liệu trong NLP
• Dữ liệu trong NLP có đặc tính chuỗi và có sự phụ thuộc lẫn nhau giữa các thành phần
(trạng thái) trong dữ liệu
• Năng lực tính toán của máy tính ngày càng mạnh nên đã hiện thực hóa được
việc huấn luyện mạng neural hồi quy
• Vốn yêu cầu nhiều bước tính toán hơn mạng neural thông thường
• Việc áp dụng RNN có thể được coi là một bước đột phá
(breakthrough) trong NLP

...
RNN
𝑥"
𝑥#
𝑥$
𝑦$
Trong NLP, đầu vào có thể là một câu có n từ, mỗi từ được được
biểu diễn bằng 1 vector (chẳng hạn học bằng word2vec), đầu ra là
một vector biểu diễn cho câu đầu vào.
Vector thu được mã hóa (encode) thông tin từ câu đầu vào

Mạng Neural hồi quy
(Recurrent Neural Networks)
• Chúng ta định nghĩa (ngầm định) vector đầu ra 𝑦& cho mỗi chuỗi
(prefix) 𝑥":& của chuỗi 𝑥":$
𝑦":$ = 𝑅𝑁𝑁∗
𝑥":$
𝑦& = 𝑅𝑁𝑁(𝑥":&)
𝑥& ∈ 𝑅/01 and 𝑦$ ∈ 𝑅/234
• Vector đầu ra 𝑦$ sẽ được sử dụng cho những dự đoán tiếp theo.
• Dự đoán sentiment của một câu (Sentiment Analysis)
• Dự đoán từ loại của từng từ trong câu (PoS Tagging)

(Recurrent Neural Networks)
• RNN được định nghĩa một cách đệ quy bằng một hàm đệ quy R nhận đầu vào là trạng
thái trước và vector input hiện tại
𝑅𝑁𝑁∗ 𝑥":$; 𝑠7 = 𝑦":$
𝑦& = 𝑂 𝑠&
𝑠& = 𝑅(𝑠&9", 𝑥&)
𝑥& ∈ 𝑅/01, 𝑦& ∈ 𝑅/234, 𝑠& ∈ 𝑅;(/234)
R, O
𝜃
𝑦&
𝑠&9" 𝑠&
𝑥&
Ảnh vẽ lại từ cuốn sách “Neural Network
Methods for Natural Language
Processing” của Yoav Goldberg.

R, O R, O R, O R, O R, O
𝑥" 𝑥# 𝑥= 𝑥> 𝑥?
𝑠7
𝑠" 𝑠# 𝑠= 𝑠>
𝑠?
𝑦" 𝑦# 𝑦=
𝑦> 𝑦?
𝜃 Ảnh vẽ lại từ cuốn sách “Neural Network
Methods for Natural Language
Processing” của Yoav Goldberg.

• Triển khai công thức đệ quy (ví dụ cho i = 4)
𝑠> = 𝑅 𝑠=, 𝑥>
= 𝑅 𝑅 𝑠#, 𝑥= , 𝑥>
= 𝑅 𝑅 𝑠#, 𝑥= , 𝑥>
= 𝑅 𝑅 𝑅(𝑠", 𝑥#), 𝑥= , 𝑥>
= 𝑅 𝑅 𝑅(𝑅(𝑠7, 𝑥"), 𝑥#), 𝑥= , 𝑥>
• Vì thế 𝑠$ và 𝑦$ được coi là các “mã hóa” (encoding) của toàn bộ chuỗi
đầu vào.

Huấn luyện mạng neural hồi quy
(RNN Training)
• Về cơ bản việc huấn luyện mạng neural hồi quy được thực hiện qua 2
bước:
• Duỗi thẳng (unroll) mạng neural hồi quy
• Sử dụng thuật toán backpropagation để tính đạo hàm một phần (gradient)
của hàm mất mát (giống như trong mạng neural thông thường).
• Thuật toán huấn luyện mạng RNN được gọi là backpropagation
through time (BPTT) (Werbos, 1990)

Simple RNN (Elman Network)
• Đề xuất bởi Elman (1990)
𝑠& = 𝑅ABCC 𝑥&; 𝑠&9" = 𝑔 𝑠&9" 𝑊F
+ 𝑥& 𝑊H
+ 𝑏
𝑦& = 𝑂ABCC 𝑠& = 𝑠&
𝑠&, 𝑦& ∈ 𝑅/J, 𝑥& ∈ 𝑅/K, 𝑊H
∈ 𝑅/K×/J, 𝑊F
∈ 𝑅/J×/J, 𝑏 ∈ 𝐷/J
𝑔 is a nonlinear activation function (tanh or ReLU)
• S-RNN là một kiến trúc khá mạnh nhưng có nhược điểm là việc S-RNN
không hiệu quả trong việc xử lý các phụ thuộc dài (long-range
dependencies)
• I live in France. I speak French.
• Do vấn đề đạo hàm bị triệt tiêu sau các bước (vanishing gradients)

Bộ nhớ (memory) trong mạng neural hồi quy
• Các trạng thái 𝑠& có thể coi là bộ nhớ trong RNN
• Khi áp dụng hàm đệ quy R:
• Đọc vào input 𝑥&N"
• Đọc trạng thái nhớ hiện tại 𝑠&
• Xử lý (theo một cách nào đó) và ghi vào trạng thái nhớ kế tiếp 𝑠&N"
• Trong S-RNN, việc truy cập bộ nhớ không được kiểm soát tốt
• Tại mỗi bước tính toán, toàn bộ trạng thái nhớ được đọc
• Long-Short Term Memory (LSTM) và Gated Recurrent Network (GRU)
sẽ giải quyết vấn đề trên thông qua cơ chế cổng (gate)

Kiến trúc kiểm soát truy cập bộ nhớ bằng
cổng (gated architectures)
• Ý tưởng ban đầu:
• Có thể dùng một vector nhị phân 𝑔 ∈ 0,1 $
giống như một cổng để kiểm soát việc
truy cập vùng nhớ n chiều (chỉ các giá trị tương ứng với phần từ 1 được giữ lại)
• 𝑠Q ← 𝑔 ⨀ 𝑥 + (1 − 𝑔) ⨀ (𝑠)
• Vấn đề:
• Các cổng như trên nên không có tính “động” (có thể học được)
• Các giá trị nhị phân dùng trong cổng không tính đạo hàm được
• Ý tưởng cải tiến:
• Xấp xỉ các cơ chế cổng trên bằng các giá trị có thể tính được đạo hàm và dùng một
hàm có giá trị trong khoảng (0,1), 𝜎(𝑔)
• Thường là hàm sigmoid:
"
"NWXK

Mạng neural Long-Short Term Memory
(LSTMs)
• Phát minh bởi Hochereiter và Schmidhuber năm 1997
• Giải quyết vấn đề đạo hàm bị triệt tiêu; nghiên cứu đầu tiên đưa ra phương
pháp kiểm soát truy cập vùng nhớ bằng cơ chế cổng
• Ý tưởng:
• Chia vector trạng thái nhớ 𝑠& thành 2 nửa: nửa đầu là các ô nhớ (memory cell)
để lưu giữ trí nhớ và nửa kia là bộ nhớ hoạt động (working memory)
• Tại mỗi trạng thái đầu vào:
• Cổng được dùng để quyết định xem ”bao nhiêu” đào vào sẽ được giữ lại để lưu vào các ô
nhớ và bao nhiêu nội dung của các ô nhớ nên được quên đi.

Định nghĩa toán học của mạng LSTM
𝑠Y = 𝑅ZA[ 𝑠Y9", 𝑥Y = [𝑐Y; ℎY]
• 𝑐Y = 𝑓 ⨀ 𝑐Y9" + 𝑖 ⨀ 𝑧
• ℎY = 𝑜 ⨀ tanh 𝑐Y
• 𝑖 = 𝜎 𝑥Y 𝑊H𝒊 + ℎY9" 𝑊j𝒊
• 𝑓 = 𝜎 𝑥Y 𝑊H; + ℎY9" 𝑊j;
• 𝑜 = 𝜎 𝑥Y 𝑊Hk + ℎY9" 𝑊jk
• 𝑧 = tanh 𝑥Y 𝑊Hl + ℎY9" 𝑊jl
𝑦 = 𝑂ZA[ 𝑠Y = ℎY
Trong đó:
• 𝑐Y là thành phần nhớ và ℎY là các trạng thái ẩn
• 𝑖, 𝑓, 𝑜 là các cổng input, forget, và output

Kiến trúc GRU (Gated Recurrent Unit)
• GRU phát minh bởi (Cho et al., 2014) là một kiến trúc cổng đơn giản
hơn LSTM, nhưng rất hiệu quả trong thực tế
• Đặc điểm:
• Dùng ít cổng hơn hẳn so với kiến trúc LSTM
• Không có thành phần nhớ riêng biệt
• Một số nghiên cứu chỉ ra GRU hiệu quả để mô hình ngôn ngữ
(language modeling) và trong dịch máy (machine translation)
• Nhưng chưa hoàn toàn vượt trội so với LSTM
• Xem nghiên cứu thực nghiệm so sánh giữa GRU và LSTM của Jozefowicsz et al.
2015
• Józefowicz, R., Sutskever, I., & Zaremba, W. (2015). An Empirical Exploration of Recurrent
Network Architectures. ICML.

Biểu diễn toán học của kiến trúc GRU
𝑠Y = 𝑅mBn 𝑠Y9", 𝑥Y = 1 − 𝑧 ⊙ 𝑠Y9" + 𝑧 ⊙ 𝑠̃Y
• 𝑧 = 𝜎 𝑥Y 𝑊Hl
+ 𝑠Y9" 𝑊Fl
• 𝑟 = 𝜎 𝑥Y 𝑊Hr
+ 𝑠Y9" 𝑊Fr
• stY = tanh 𝑠Y 𝑊HF
+ 𝑟 ⊙ 𝑠Y9" 𝑊Fu
𝑦Y = 𝑂mBn 𝑠Y = 𝑠Y
Trong đó
• Một cổng (𝑟) được dùng để điều khiển việc truy cập vào trạng thái trược
𝑠Y9" và tính toán giá trị cập nhật 𝑠̃Y
• Giá trị 𝑠Y được tính bằng công thức nội suy giữa 𝑠Y9" và 𝑠̃Y và được điều
khiển bởi cổng 𝑧

Ảnh từ bài báo: Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun;
Bengio, Yoshua (2014). "Empirical Evaluation of Gated Recurrent Neural
Networks on Sequence Modeling". arXiv:1412.3555”

Các cách sử dụng RNN
• RNNs có thể được sử dụng như là:
• Generators
• Sinh chuỗi đầu ra (ví dụ RNN language model)
• Sinh chuỗi đầu ra từ một chuỗi đầu vào (trong mô hình sequence-to-sequence)
• Acceptors
• Nhận đầu vào là một chuỗi và phân lớp chuỗi đầu vào (phân lớp nhị phân hoặc đa lớp)
• Một bộ trích xuất đặc trưng

Các cách sử dụng RNN
Bản quyền hình ảnh thuộc về Andrej Karpathy.
Ảnh lấy từ bài viết: http://karpathy.github.io/2015/05/21/rnn-effectiveness/

RNN như là một acceptors
• Ví dụ trong bài toán phân loại cảm nghĩ (Sentiment classification task)
• POSITIVE: If you sometimes like to go to the movies to have fun, Wasabi is a
good place to start .
• NEGATIVE: The thing looks like a made-for-home-video quickie.
• RNN đọc vào từng từ của câu tại mỗi thời điểm; trạng thái cuối cùng
của RNN được dùng làm đầu vào của một mạng MLP với tầng đầu ra
là tầng softmax
𝑝 𝑙𝑎𝑏𝑒𝑙 = 𝑘 𝑤":$ = 𝑦| }
𝑦| = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑀𝐿𝑃 𝑅𝑁𝑁 𝑥":$
𝑥":$ = 𝐸 „…
, ⋯ , 𝐸 „1
• E là ma trận word embedding

RNN với vai trò là bộ trích xuất đặc trưng
• Ví dụ trong bài toán PoS Tagging
• Mảnh/Nc đất/N của/E đạn/N bom/N không/R còn/V người/N nghèo/A ./.
• Đầu vào: là một câu 𝑠 = 𝑤":$
• Biến đổi câu đầu vào thành một danh sách các vector 𝑥":$ bằng một hàm đặc
trưng 𝑥& = 𝜙(𝑠, 𝑖)
• Các vector 𝑥":$ sẽ được đưa vào mạng biRNN và sinh ra chuỗi các vector đầu
ra 𝑦":$ = 𝑏𝑖𝑅𝑁𝑁∗(𝑥":$)
• Mỗi vector 𝑦& sẽ được dùng để dự đoán nhãn từ loại tại vị trí 𝑖 bằng một
mạng MLP
• Hàm vector 𝑥& có thể là đầu ra của các tầng trước đó (ví dụ dùng character-level
RNN)
• Chính vì thế ta nói RNN có thể được dùng như là một bộ trích xuất đặc trưng.

Mô hình sequence-to-sequence
• Áp dụng cho các bài toán khi ta cần sinh ra một chuỗi đầu ra từ một
câu đầu vào cho trước
• Dịch máy
• Tự động phản hồi email
• Chatbot
• Image Captioning
• Tên gọi khác là Encoder-Decoder framework
• Ý tưởng cơ bản:
• Dùng 2 mạng RNN
• Một RNN đóng vai trò là mã hóa (encode) câu đâu vào thành một vector
• RNN khác đóng vai trò giải mã (decode), sinh ra câu đầu ra

Hình minh họa mô hình sequence-to-sequence. Nguồn ảnh:
https://github.com/farizrahman4u/seq2seq

Mô hình sinh có điều kiện
(conditioned generation)
• Thành phần tiếp theo được sinh ra dựa trên thành phần đã được sinh
ra trước đó.
𝑡̃YN" ~ 𝑝(𝑡YN" = 𝑘|𝑡̂":Y)
• Sử dụng mô hình RNN, ta có thể định nghĩa như sau
𝑝 𝑡YN" = 𝑘 𝑡̂":Y = 𝑓 𝑅𝑁𝑁 𝑡̂":Y
𝑡̂Y ~ 𝑝(𝑡Y|𝑡̂":Y9")

• Khi sử dụng thêm ngữ cảnh (context) c trong mô hình sinh
𝑡̂YN" ~ 𝑝(𝑡YN" = 𝑘|𝑡̂":Y, 𝑐)
• Ví dụ về ngữ cảnh: trong chatbot theo mô hình sequence-to-sequence, ngữ
cảnh có thể là thông tin của người dùng như giới tính, những đoạn hội thoại
trước đó, vv
• Khi sử dụng RNN, ngữ cảnh được biểu diễn bằng một vector c
𝑝 𝑡YN" = 𝑘 𝑡̂":Y, 𝑐 = 𝑓 𝑅𝑁𝑁 𝑣":Y
𝑣& = 𝑡̂&, 𝑐
𝑡̂Y ~ 𝑝(𝑡Y|𝑡̂":Y9", 𝑐)

• Định nghĩa đệ quy của mô hình sinh có điều kiện dùng RNN
𝑝 𝑡YN" = 𝑘 𝑡̂":Y, 𝑐 = 𝑓 𝑂 𝑠YN"
𝑠YN" = 𝑅 𝑠Y, 𝑡̂Y; 𝑐
𝑡̂Y ~ 𝑝(𝑡Y|𝑡̂":Y9", 𝑐)
• Tại mỗi bước, vector ngữ cảnh sẽ được nối vào đầu vào 𝑡̂Y trước khi
đưa vào RNN

• Bao gồm 2 thành phần RNN encoder và RNN decoder
• Đầu vào là một chuỗi 𝑥":$; đầu ra là chuỗi 𝑡":Œ
• Ngữ cảnh c cũng là một chuỗi được mã hóa từ chuỗi input bằng một
hàm mã hóa RNN (RNN encoder)
𝑅𝑁𝑁: 𝑐 = 𝑅𝑁𝑁W$•
(𝑥":$)
• Một bộ sinh có điều kiện RNN (RNN decoder) sẽ sinh ra chuỗi đầu ra
𝑡":Œ theo như phương trình ở slide trước.

• RNN encoder tóm tắt (mã hóa) câu đầu vào dưới dạng một vector c
• RNN decoder dự đoán các từ trong chuỗi đầu ra dựa trên từ được dự
đoán trước đó và chuỗi mã hóa c
• Encoder RNN và decoder RNN được huấn luyện đồng thời
• Việc kiểm tra hàm mất mát xảy ra ở decoder RNN

Kỹ thuật Attention (Attention Mechanism)
• Điều gì đã dẫn dắt đến ý tưởng dùng kỹ thuật Attention?
• Mô hình sequence-to-sequence ban đầu yêu cầu RNN decoder có khả năng
trích xuất thông tin từ vector mã hóa 𝑐 = 𝑅𝑁𝑁W$•(𝑥":$)
• Vector mã hóa cần có đủ thông tin cho RNN decoder
• Phải sử dụng toàn bộ thông tin về chuỗi đầu vào cho dù chuỗi đó dài hay ngắn
• Cùng một vector context được dùng để dự đoán chuỗi output
• Câu hỏi: làm sao để trong bước sinh chuỗi output, tại một bước, ta
cho phép RNN decoder tập trung (attend) vào một những phần nhất
định của đầu vào được encode.
• Ví dụ: khi dịch văn bản, ta thường chú ý đến những từ nhất định trong câu
nguồn khi lựa chọn từ ngữ

• Đề xuất bởi Bahdanau và cộng sự năm 2014
• Bahdanau, D., Bengio, Y., & Cho, K. (2014). Neural Machine Translation by Jointly
Learning to Align and Translate. CoRR, abs/1409.0473.
((https://arxiv.org/abs/1409.0473)
• Lấy cảm hứng từ mô hình visual attention trong ngành computer vision
• Nới lỏng điều kiện rằng toàn bộ câu đầu vào được mã hóa bằng 1 vector
duy nhất. Thay vào đó, câu đầu vào được mã hóa bằng một dãy các vector
• Decoder áp dụng kỹ thuật attention mềm dẻo (soft attention mechanism)
• Để quyết định xem nên tập trung vào những phần nào của chuỗi mã hóa
• Encoder, decoder và cơ chế attention được huấn luyện cùng nhau (joint
training)

• Chuỗi đầu vào 𝑥":$ được mã hóa bằng biRNN (bidirectional RNN),
sinh ra n vector 𝑐":$
𝑐":$ = 𝐸𝑁𝐶 𝑥":$ = 𝑏𝑖𝑅𝑁𝑁∗
(𝑥":$)
• Tại mỗi bước 𝑗, decoder sẽ chọn ra những phần nào trong 𝑐":$ để tập
trung vào, sinh ra vector ngữ cảnh 𝑐Y
= 𝑎𝑡𝑡𝑒𝑛𝑑(𝑐":$, 𝑡̂":Y) để dùng
cho bước dự đoán thứ 𝑗
𝑝 𝑡YN" = 𝑘 𝑡̂":Y, 𝑥":$ = 𝑓 𝑂 𝑠YN"
𝑠YN" = 𝑅 𝑠Y, 𝑡̂Y; 𝑐Y
𝑐Y
= 𝑎𝑡𝑡𝑒𝑛𝑑 𝑐":$, 𝑡̂":Y
𝑡̂Y ~ 𝑝(𝑡Y|𝑡̂":Y9", 𝑥":$)

Soft attention
• Tại mỗi bước, vector ngữ cảnh 𝑐Y
là tổng trọng số của các vector 𝑐":$
𝑐Y
= ’ 𝛼 &
Y
⋅ 𝑐&
$
&•"
• Các giá trị 𝛼 &
Y
được tính qua một mạng neural MLP (multi-layer
perceptron) và được chuẩn hóa bằng hàm softmax

Các biến thể của kỹ thuật attention
• Additive attention
• Multiplicative attention
• Self-attention
• Key-value attention
Xem thêm:
• Sebastian Ruder. Deep Learning for NLP Best Practices.
http://ruder.io/deep-learning-nlp-best-practices/index.html#fn:16

Các nghiên cứu về kỹ thuật
Attention cho NLP tại ACL 2017

Learning attention for historical text normalization
by learning to pronounce (Bollmann et al.)
• Bollmann et al., Learning attention for historical text normalization by
learning to pronounce
• Vấn đề: chuẩn hoá cách viết trong văn bản lịch sử (tiếng Đức) sang cách
viết hiện đại
• Đưa ra mô hình sequence-to-sequence dựa trên character để giải quyết bài
toán

Learning attention for historical text normalization
by learning to pronounce (Bollmann et al.)
• Điểm mới
• Đưa ra mô hình sequence-to-sequence multi-task learning và chỉ ra rằng mô
hình multi-task có hiệu quả tương tự như kỹ thuật attention trong mô hình
sequence-to-sequence
• Đưa attention vào trong mô hình multi-task learning là dư thừa
• Multi-task learning
• Vừa học mô hình chuẩn hoá chính tả vừa học mô hình phát âm (Grapheme-
to-phoneme) một cách đồng thời
• Thêm một tầng output trong mạng neural

Exploiting Argument Information to Improve Event Detection
via Supervised Attention Mechanisms (Liu et al.)
• Bài toán: phát hiện sự kiện (event) trong văn bản
• Sự kiện là những gì việc xảy ra trong thực tế và được định nghĩa trước
• Ví dụ: sự kiện thăm (visit), chết (die),…
• Đầu vào: một câu
• Đầu ra: các sự kiện cùng với các từ thể hiện sự kiện đó
• Ví dụ:
• Mohamad fired Anwar, his former protégé, in 1998
• Output: sự kiện End-Position cùng với từ thể hiện sự kiện đó là fired

Exploiting Argument Information to Improve Event Detection
via Supervised Attention Mechanisms (Liu et al.)
• Mô hình hóa bài toán dưới dạng phân lớp văn bản
• Phân lớp mỗi từ trong câu về một trong những lớp được định nghĩa trước
(danh sách các loại event)
• Mỗi từ trong câu sẽ được kết hợp với 1 vector biểu diễn ngữ cảnh của từ đó
để tạo thành một candidate (event trigger candidate)
• Ý tưởng:
• Khai thác argument trong training data một cách tường minh trong mô hình
phát hiện sự kiện
• Các argument của sự kiện sẽ được chú ý (attend) nhiều hơn trong vector ngữ
cảnh
• Học attention và event detection một cách đồng thời

Domain Attention with an Ensemble of
Experts (Young-Bum Kim et al.)
• Ý tưởng cơ bản
• Đưa ra phương pháp domain adaptation mới bằng kỹ thuật ”domain
attention”
• Với một domain có ít dữ liệu training, chúng ta có thể tận dụng các domain có nhiều dữ
liệu để tăng độ chính xác hệ thống học máy trên domain ít dữ liệu.
• Các experts từ các domain khác được sử dụng để đưa thêm thông tin vào
biểu diễn đặc trưng của các instance trong domain hiện tại
• Selective attention: Chọn top experts thay vì chọn toàn bộ experts.
• Bài toán ứng dụng: 2 bài toán cơ bản trong speech language
understanding (SLU)
• Intent classification
• Slot Filling (Slot Tagging hay Entity extraction)

Credited by Young-Bum Kim

Domain Attention with an Ensemble of Experts
(Young-Bum Kim et al.)
ℎ&
WH–Wr—F
= ’ 𝑎&,}ℎ&
(})
˜
}•"
𝑎&,} =
exp ( 𝑞&,})
∑ exp ( 𝑞&,})˜
}•"
𝑞&,}
/k—
= ℎ&
[
ℎ(})
𝑞&,}
ž&
= ℎ&
[
𝐵ℎ(})
𝑞&,}
;WW/
= 𝑊𝑡𝑎𝑛ℎ 𝑈ℎ&
[
+ 𝑉ℎ }
+ 𝑏"
+ 𝑏#

A Nested Attention Neural Hybrid Model for
Grammatical Error Correction (Jianshu Ji et al.)
• Ý tưởng chính:
• Mô hình hóa bài toán sửa lỗi ngữ pháp thành bài toán dịch máy (monolingual
machine translation) – dịch câu sai ngữ pháp thành câu đúng ngữ pháp
• Áp dụng mô hình sequence-to-sequence với attention để giải quyết bài toán
• Đưa ra mô hình học attention lồng nhau để sửa lỗi ngữ pháp trên 2 mức:
• Mức thứ tự từ
• Lỗi chính tả và lỗi word inflection
• Sử dụng cơ chế hard attention
• Ưu điểm:
• Có thể sửa lỗi chính tả, inflections với các OOV (out-of-vocabulary) words
• Có thể dùng ít hơn lượng dữ liệu training

A Nested Attention Neural Hybrid Model for
Grammatical Error Correction (Jianshu Ji et al.)

Neural Relation Extraction with Multi-lingual
Attention (Lin et al.)
• Ý tưởng chính: đề xuất mô hình mạng neural trong trích xuất quan hệ
giữa các thực thể với 2 kỹ thuật: mono-lingual attention và cross-
lingual attention để tận dụng tài nguyên đa ngôn ngữ
• (New York, CityOf, United States)
• Phương pháp mạng neural mô hình hóa bài toán về dạng bài toán
phân lớp
• Mỗi cặp thực thể được phân lớp dựa trên tập S các câu mà nó xuất hiện
• Biểu diễn tập các câu này thành dạng vector
• Vấn đề: mức độ quan trọng của các câu trong S không giống nhau => mono-
lingual attention
• Để tận dụng các dữ liệu đa ngôn ngữ => multi-lingual attention

Neural Relation Extraction with Multi-lingual
Attention (Lin et al.)
Ảnh lấy ra từ bài báo của tác giả. Bản quyền hình
ảnh thuộc về tác giả bài báo.

Một số nghiên cứu khác sử dụng kỹ thuật
Attention
• Hao at al., An End-to-End Model for Question Answering over Knowledge Base
with Cross-Attention Combining Global Knowledge.
• Dhingra et al., Gated-Attention Readers for Text Comprehension
• He et al., Generating Natural Answers by Incorporating Copying and Retrieving
Mechanisms in Sequence-to-Sequence Learning
• Yang et al., Leveraging Knowledge Bases in LSTMs for Improving Machine Reading
• Young-Bum Kim. Domain Attention with an Ensemble of Experts
• Zhang. Incorporating Word Reordering Knowledge into Attention-based Neural
Machine Translation
• Iacer Calixto. Doubly-Attentive Decoder for Multi-modal Neural Machine
Translation
• Soichiro Murakam. Learning to Generate Market Comments from Stock Prices.

Một số nghiên cứu khác tại
ACL 2017

Chat Detection in an Intelligent Assistant
(Akasaki et al.)
• Akasaki et. al., Chat Detection in an Intelligent Assistant: Combining
Task-oriented and Non-task-oriented Spoken Dialogue Systems.
• Vấn đề: phân loại giữa câu chit-chat và câu có intent cụ thể (người
dùng muốn thực hiện tác vụ nào đó)
• Đóng góp chính:
• Xây dựng dữ liệu cho việc phát hiện các chat và non-chat
• Thử nghiệm các phương pháp phân lớp và đặc trưng mới cho bài toán
• Sử dụng dữ liệu web log, tweets, etc

Chat Detection in an Intelligent Assistant
(Akasaki et al.)
• Những điểm đáng chú ý:
• Kết hợp đầu ra của CNN với các đặc trưng khác từ dữ liệu bên ngoài (từ
language model, tweets, web search, etc)
• SVM + các đặc trưng từ word embedding và tweet queries cho kết quả tốt
hơn CNN

Linguistically Regularized LSTM for Sentiment
Classification (Quian et al.)
• Mạng neural LSTM có thể rộng rãi trong các bài toán xử lý ngôn ngữ
tự nhiên (như sentiment analysis)
• Có thể tận dụng cấu trúc dạng chuỗi và thứ tự của các từ trong câu
• Các nghiên cứu dùng LSTM cho sentiment analysis chưa tận dụng
được đầy đủ các tài nguyên về sentiment:
• Sentiment lexicon (như senti-wordnet)
• Từ phủ định (negation words)
• Từ chỉ mức độ (intensity words): very, absolute, etc

Linguistically Regularized LSTM for Sentiment Classification
(Quian et al.)
• Ý tưởng chính của bài báo: Tận dụng các tài nguyên về sentiment bằng
đưa vào hàm mất mát (loss function) trong mạng neural LSTM các thành
phần liên quan đến:
• Sentiment Lexicon, Negation words, intensity words

Deep Pyramid Convolutional Neural Networks for Text
Categorization (Rie Johnson and Tong Zhang)

Deep Pyramid Convolutional Neural Networks for
Text Categorization (Rie Johnson and Tong Zhang)
• Một số điểm đặc sắc trong bài báo
• Kỹ thuật Text Region Embedding có hiệu quả tương tự như embedding layer +
convolutional layer trong CNN và có độ sâu nhỏ hơn
• Giảm thời gian tính toán
• Tối ưu tốt hơn
• Dùng các pooling layers cho down sampling nhưng không tăng số lượng
feature map giảm thời gian tính toán và không ảnh hưởng tới độ chính xác
của hệ thống
• Dùng shortcut connections với pre-activation + identity mapping cho phép
huấn luyện mạng neural nhiều tầng hơn.

Benben: A Chinese Intelligent Conversational Robot (Wei-Nan
Zhang)
• Benben là hệ thống giao tiếp thông minh (conversational rotbot) có thể thực hiện
bốn công việc sau trong một kiến trúc thống nhất:
• Chit-chat
• Thực hiện nhiệm vụ (như tìm địa điểm, đặt khách sạn, etc)
• Trả lời câu hỏi (question answering)
• Gợi ý các tin tức cần đọc thông qua hỏi đáp (News recommendation)

Benben: A Chinese Intelligent Conversational
Robot (Wei-Nan Zhang)
• Một số ý tưởng hay:
• Tích hợp sentiment analysis vào chatbot (để đưa ra những phản hồi mang tính
an ủi hoặc dùng cảm xúc của người dùng như là những phản hồi cho hệ thống).
• Phát hiện những câu có nội dung lăng mạ, xúc phạm, nhạy cảm, etc để từ chối
trả lời.
• Tự động lựa chọn miền ứng dụng (domain) của đoạn hội thoại (liệu người dùng
muốn chit-chat, hỏi đáp thông tin, yêu cầu thực hiện tác vụ, etc)
• Trong giai đoạn sinh câu trả lời, hệ thống đánh giá chất lượng của câu trả lời dựa
trên trạng thái hội thoại được xác định.
• Trạng thái hội thoại được định nghĩa là vị trí của hội thoại hiện tại trên đường đến điểm
hoàn thành mục tiêu của người dùng và loại phản hồi hệ thống cần đưa ra (ví dụ: xác nhận,
từ chối, hỏi tiếp, etc)

Extended Named Entity Recognition API and
Its Applications in Language Education (Nguyen et al.)
• Xây dựng một bộ nhận dạng thực thể mở rộng với cấu trúc phân cấp
• Extended Named Entity Recognition (ENER) với 200 loại thực thể khác nhau
• Phát triển API cho nhận dạng thực thể trong văn bản tiếng Nhật:
http://enerdev.alt.ai:8030/#!/Chatbot/
• Áp dụng cho trang Web học tiếng Nhật http://en.mazii.net/#/news
Organization
Sport organization Corporation Political Organization

Extended Named Entity Recognition API and
Its Applications in Language Education (Nguyen et al.)
• Kết hợp nhiều bộ nhận dạng thực thể tên gọi khác nhau để tận dụng
ưu điểm của từng loại thuật toán
• Đạt độ chính xác trung bình 71.95% (F1 score)

On the Challenges of Translating NLP Research
into Commercial Products (Dahlmeier et al., )
• Thách thức khi vận dụng các nghiên cứu NLP vào sản phẩm thương
mại
• Tóm tắt nội dung:
• Bài báo đưa ra những thách thức khi chuyển giao các nghiên cứu NLP vào các
sản phẩm thương mại
• Đưa ra những ý tưởng, chia sẻ những kinh nghiệm để tăng khả năng thành
công trong việc chuyển giao

On the Challenges of Translating NLP Research
into Commercial Products (Dahlmeier et al., )
• Một số thách thức (challenges):
• Thiếu tập trung vào những giá trị chính
• Nghiên cứu thiếu khả năng tái hiện lại được
• Không có đủ dữ liệu trong miền ứng dụng của sản phẩm
• Quá tập trung vào độ đo trên tập test (test scores)
• Thời gian

Thách thức khi vận dụng các nghiên cứu NLP vào
sản phẩm thương mại
• Công thức để có một vấn đề nghiên cứu tốt
• Hiểu công việc phải làm: bài toán kinh doanh, ai là người dùng, vấn đề cần giải
quyết, liệu có cần đến NLP hay chỉ cần một số luật (rules) đơn giản,…
• Mô hình hóa bài toán về bài toán học máy: cho trước X, dự đoán Y; cái gì là
input, cái gì là output?
• Xác định xem liệu có thu thập/làm được dữ liệu hay không?
• Cân nhắc xem mô hình NLP tốt nhất hiện tại có giải quyết được bài toán
không, liệu có thể biểu diễn đầu vào bằng những đặc trưng (features) có ý
nghĩa, có độ đo nào để đánh giá mức độ thành công của hệ thống NLP?
• Xác định cách tiếp cận hợp lý cho trường hợp ứng dụng đang làm

Một số các nghiên cứu khác
• Tutorial “Deep Learning for Dialogue Systems”, by Yun-Nung Chen
• https://sites.google.com/site/deeplearningdialogue/
• Rui Meng. Deep Keyphrase Generation
• Mikel Artetxe. Learning bilingual word embeddings with (almost) no bilingual data
• Qian Chen. Enhanced LSTM for Natural Language Inference
• Yu Wu. Sequential Matching Network: A New Architecture for Multi-turn Response Selection
in Retrieval-Based Chatbots
• Mingbin Xu. A Local Detection Approach for Named Entity Recognition and Mention
Detection
• Matthew E. Peters. Semi-supervised sequence tagging with bidirectional language models
• Mingbin Xu. A Local Detection Approach for Named Entity Recognition and Mention
Detection.
• Suncong Zheng. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

Kết luận
• Kỹ thuật attention là một kỹ thuật hiệu quả trong mô hình sequence-to-
sequence và ngày càng trở nên phổ biến
• Nhưng nó không phải là một kỹ thuật “vạn năng” mà cần dùng với sự chú ý nhất định
(ví dụ như bài báo về multi-task learning)
• Deep Learning vẫn là kỹ thuật “áp đảo” trong hội nghị ACL 2017
• Nhiều người ví Deep Learning giống như trận sóng thần (Tsunami) trong NLP
• Nhưng các nghiên cứu sử dụng các cấu trúc ngôn ngữ học và semantic đang quay trở
lại
• Nhiều nghiên cứu đang cố gắng hiểu, giải thích vì sao Deep Learning hiệu
quả trong các bài toán NLP.
• Xem thêm: Four deep learning trends from ACL 2017:
http://www.abigailsee.com/2017/08/30/four-deep-learning-trends-from-acl-2017-
part-1.html

Tài liệu tham khảo
• Các bài báo đưa ra trong slide
• Cuốn sách “Neural Network Methods for Natural Language
Processing” của tác giả Yoav Goldberg.
• Four deep learning trends from ACL 2017:
http://www.abigailsee.com/2017/08/30/four-deep-learning-trends-
from-acl-2017-part-1.html
• Sebastian Ruder. Deep Learning for NLP Best Practices.
http://ruder.io/deep-learning-nlp-best-practices/index.html#fn:16

Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017

Ähnlich wie Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017 (10)

Mehr von Minh Pham

Mehr von Minh Pham (13)

Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017