A voice search engine for military symbols to enhance the drafting  of operational plan documents on digital map

Dang Duc Thinh; Nguyen Chi Thanh; Le Van Diep; Nguyen Duc Vuong; Luong Dinh Ha; TS Hải Phùng Như

doi:10.54939/1859-1043.j.mst.87.2023.40-49

Các tác giả

Dang Duc Thinh Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Nguyen Chi Thanh Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Le Van Diep Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Nguyen Duc Vuong Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Luong Dinh Ha Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Phung Nhu Hai (Tác giả đại diện) Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự

DOI:

https://doi.org/10.54939/1859-1043.j.mst.87.2023.40-49

Từ khóa:

Tìm kiếm bằng giọng nói; Trích xuất đặc trưng; Độ tương đồng Cosin; Ký hiệu quân sự; Bản đồ số.

Tóm tắt

Việc tìm kiếm thông tin phục vụ xây dựng văn kiện tác chiến trên nền bản đồ số vẫn đang được thực hiện thủ công, cần được tự động hóa để tăng hiệu quả sử dụng. Công nghệ nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên, thường được sử dụng trong chatbot, trợ lý ảo, ra lệnh bằng giọng nói và tìm kiếm bằng giọng nói, có thể giúp tự động hóa một số tác vụ. Bài báo này đề xuất xây dựng một công cụ tìm kiếm tự động các ký hiệu quân sự bằng giọng nói, sử dụng mô hình Whisper để chuyển đổi giọng nói thành văn bản, các phương pháp xử lý ngôn ngữ tự nhiên như TF-IDF, N-gram, Truncated SVD và phương pháp tính độ tương đồng Cosine được dùng để hoàn thiện thông tin tìm kiếm bằng từ điển kí hiệu quân sự. Chúng tôi đã so sánh phương pháp đề xuất với một số phương pháp thống kê truyền thống và mô hình máy học tương đương. Mặc dù bộ dữ liệu âm thanh mà chúng tôi nghiên cứu thu thập rất hạn chế, các thử nghiệm cho thấy kết quả tốt với độ chính xác là 82,00%. Kết quả này cao hơn những phương pháp trích xuất đặc trưng truyền thống và các mô hình phân loại, từ đó khẳng định tính hiệu quả của phương pháp đề xuất.

Tài liệu tham khảo

[1]. Nguyen Duc Dinh, Hoang Van Toan, “System Design Documentation of T3BD System”, (2020).

[2]. Arthur Brown, “How Does Voice Recognition Work?”, (2021) [Online]. Available: https://www.makeuseof.com/how-does-voice-recognition-work.

[3]. Sethunya R Joseph, Hlomani Hlomani, Keletso Letsholo, Freeson Kaniwa, Kutlwano Sedimo, “Natural Language Processing: A Review”, International Journal of Research in Engineering and Applied Sciences, vol. 6, is. 3, ( 2016).

[4]. Raul Mercado, “Siri vs. Alexa vs. Google Assistant: Which Is Smarter at Answering Questions?”, (2021) [Online]. Available: https://www.makeuseof.com/siri-vs-alexa-vs-google-smarter-answering-questions.

[5]. Somshubra Majumdar, Boris Ginsburg, “MatchboxNet: 1D Time-Channel Separable Convolutional Neural Network Architecture for Speech Commands Recognition”, Audio and Speech Processing (eess.AS), (2020), doi: https://doi.org/10.21437/Interspeech.2020-1058. DOI: https://doi.org/10.21437/Interspeech.2020-1058

[6]. Byeonggeun Kim, Simyung Chang, Jinkyu Lee, Dooyong Sung, “Broadcasted Residual Learning for Efficient Keyword Spotting”, Sound (cs.SD), (2021), doi: https://doi.org/10.48550/arXiv.2106.04140.

[7]. Oleg Rybakov, Natasha Kononenko, Niranjan Subrahmanya, Mirko Visontai, Stella Laurenzo, “Streaming keyword spotting on mobile devices”, Audio and Speech Processing (eess.AS), (2020), doi: https://doi.org/10.21437/Interspeech.2020-1003. DOI: https://doi.org/10.21437/Interspeech.2020-1003

[8]. Ofer Egozi, Shaul Markovitch, Evgeniy Gabrilovich, “Concept-Based Information Retrieval Using Explicit Semantic Analysis”, ACM Transactions on Information Systems, vol. 29, is. 2, pp. 1–34, (2011), doi: https://doi.org/10.1145/1961209.1961211. DOI: https://doi.org/10.1145/1961209.1961211

[9]. Mirco Ravanelli, Philemon Brakel, Maurizio Omologo, Yoshua Bengio, “Light Gated Recurrent Units for Speech Recognition”, IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 2, is. 2, pp. 92-102, (2018), doi: 10.1109/TETCI.2017.2762739. DOI: https://doi.org/10.1109/TETCI.2017.2762739

[10]. Viet Duong Trinh Anh, Sam Dang Van, Tuan Do Van, Vi Ngo Van Trong, “Vietnamese Automatic Speech Recognition with Transformer”, EasyChair Preprint, no. 7147, (2021).

[11]. General Staff, “Military Symbols”, People's Army Publishing House, (2021).

[12]. Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision”, Audio and Speech Processing (eess.AS), (2022).

[13]. Shahzad Qaiser, Ramsha Ali, “Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents”, International Journal of Computer Applications, vol. 181, no. 1, (2018), doi: 10.5120/ijca2018917395. DOI: https://doi.org/10.5120/ijca2018917395

[14]. William Cavnar, John M. Trenkle, “N-Gram-Based Text Categorization”, Environmental Research Institute of Michigan, (2001).

[15]. Serge Shishkin, Arkadi Shalaginov, Shaunak D. Bopardikar, “Fast approximate truncated SVD”, Numerical Linear Algebra with Applications, vol. 26, no. 1, (2019), doi: 10.1002/nla.2246. DOI: https://doi.org/10.1002/nla.2246

[16]. Dani Gunawan, C A Sembiring, Mohammad Andri Budiman, “The Implementation of Cosine Similarity to Calculate Text Relevance between Two Documents”, Journal of Physics Conference Series, vol. 978, no. 1, (2018), doi: 10.1088/1742-6596/978/1/012120. DOI: https://doi.org/10.1088/1742-6596/978/1/012120

Một công cụ tìm kiếm ký hiệu quân sự bằng giọng nói phục vụ xây dựng văn kiện tác chiến trên nền bản đồ số

Các tác giả

DOI:

Từ khóa:

Tóm tắt

Tài liệu tham khảo

Tải xuống

Đã Xuất bản

Cách trích dẫn

Số

Chuyên mục

Các bài báo được đọc nhiều nhất của cùng tác giả

ISSN: 1859-1043

Ngôn ngữ

Gửi bài mới

Indexed by

Thông tin

Visitors

GTM