PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK - TRANSLATION VÀ LỰA CHỌN THÍCH NGHI

176 lượt xem

Các tác giả

  • Đặng Thanh Quyền (Tác giả đại diện) Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự

Từ khóa:

Back-translation; Dịch máy thống kê; Tăng cường dữ liệu.

Tóm tắt

Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron (Neural Machine Translation - NMT). Việc sử dụng BT đã được chứng minh là có hiệu quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU.

Tài liệu tham khảo

[1]. Moore, Robert C., and Will Lewis. “Intelligent selection of language model training data.” (2010).

[2]. Axelrod, Amittai, et al. “Class-based n-gram language difference models for data selection.” IWSLT (International Workshop on Spoken Language Translation). 2015.

[3]. Fadaee, Marzieh, and Christof Monz. “Back-translation sampling by targeting difficult words in neural machine translation.” arXiv preprint arXiv:1808.09006 (2018).

[4]. Sennrich, Rico, Barry Haddow, and Alexandra Birch. “Improving neural machine translation models with monolingual data.” arXiv preprint arXiv:1511.06709 (2015).

[5]. Gibadullin, Ilshat, et al. “A Survey of Methods to Leverage Monolingual Data in Low-resource Neural Machine Translation.” arXiv preprint arXiv:1910.00373 (2019).

[6]. Park, Jaehong, Jongyoon Song, and Sungroh Yoon. “Building a neural machine translation system using only synthetic parallel data.” arXiv preprint arXiv:1704.00253 (2017).

[7]. Edunov, Sergey, et al. “Understanding back-translation at scale.” arXiv preprint arXiv:1808.09381 (2018).

[8]. Poncelas, A., et al. “Investigating backtranslation in neural machine translation.” arXiv preprint arXiv:1804.06189.

[9]. Poncelas, Alberto, et al. “Combining SMT and NMT back-translated data for efficient NMT.” arXiv preprint arXiv:1909.03750 (2019).

[10]. Hoang, Vu Cong Duy, et al. “Iterative back-translation for neural machine translation.” Proceedings of the 2nd Workshop on Neural Machine Translation and Generation. 2018.

[11]. Stahlberg, Felix, James Cross, and Veselin Stoyanov. “Simple fusion: Return of the language model.” arXiv preprint arXiv:1809.00125 (2018).

[12]. Wołk, Krzysztof, and Krzysztof Marasek. “PJAIT systems for the IWSLT 2015 evaluation campaign enhanced by comparable corpora.” arXiv preprint arXiv:1512.01639 (2015).

[13]. Axelrod, Amittai, et al. “The UMD Machine Translation Systems at IWSLT 2015.” Proceedings of IWSLT. 2015.

[14]. Trieu, Hai-Long, et al. “The JAIST-UET-MITI machine translation systems for IWSLT 2015.” Proceedings of the 12th International Workshop on Spoken Language Translation (IWSLT’15). 2015.

[15]. Thuong, Viet Tran Hong Huyen Vu, V. N. Van, and T. Le Tien. “The English-Vietnamese Machine Translation System for IWSLT 2015.” Proceeding of the 12th International Workshop on Spoken Language Translation. 2015.

[16]. Nomura, Takahiro, Hajime Tsukada, and Tomoyoshi Akiba. “Improvement of Word Alignment Models for Vietnamese-to-English Translation.” 2015.

[17]. Ng, Nathan, et al. “Facebook FAIR's WMT19 News Translation Task Submission.” arXiv preprint arXiv:1907.06616 (2019).

[18]. Jurafsky, Dan, and James H. Martin. “Speech and language processing. Vol. 3.” (2014).

[19]. Chiang, David. “Hierarchical phrase-based translation.” computational linguistics 33.2 (2007): 201-228.

[20]. Papineni, Kishore, et al. “BLEU: a method for automatic evaluation of machine translation.” Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 2002.

Tải xuống

Đã Xuất bản

15-12-2020

Cách trích dẫn

Đặng Thanh Quyền. “PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK - TRANSLATION VÀ LỰA CHỌN THÍCH NGHI”. Tạp Chí Nghiên cứu Khoa học Và Công nghệ quân sự, số p.h csce4, Tháng Chạp 2020, tr 23-32, https://ojs.jmst.info/index.php/jmst/article/view/330.

Số

Chuyên mục

Nghiên cứu khoa học