Page 1 of 11

Nghiên cứu khoa học công nghệ

Tạp chí Nghiên cứu KH&CN quân sự, 94 (2024), 11-21 11

Ứng dụng phương pháp học tăng cường đa tác nhân giải bài toán lựa chọn

phương tiện hỏa lực trong hệ thống tự động hóa chỉ huy-điều khiển

Nguyễn Xuân Trường1*, Vũ Hỏa Tiễn2

, Hoàng Văn Phúc1

,

Nguyễn Quang Thi1

, Vũ Chí Thanh3

1Viện Tích hợp hệ thống, Học viện Kỹ thuật Quân sự, số 236 Hoàng Quốc Việt, Bắc Từ Liêm, Hà Nội, Việt Nam;

2Viện Tên lửa và Kỹ thuật điều khiển, Học viện Kỹ thuật Quân sự, Số 236 Hoàng Quốc Việt, Bắc Từ

Liêm, Hà Nội, Việt Nam;

3Viện Ra đa, Viện Khoa học và Công nghệ quân sự, Số 17 Hoàng Sâm, Cầu Giấy, Hà Nội, Việt Nam.

*Email: truongnx@mta.edu.vn

Nhận bài: 19/01/2024; Hoàn thiện: 11/3/2024; Chấp nhận đăng: 08/4/2024; Xuất bản: 22/04/2024.

DOI: https://doi.org/10.54939/1859-1043.j.mst.94.2024.11-21

TÓM TẮT

Bài báo trình bày phương pháp học tăng cường sâu đa tác nhân giải bài toán lựa chọn

phương tiện hỏa lực (PTHL) động trong hệ thống TĐH CH-ĐK phòng không. Mô hình hoạt

động của PTHL được xây dựng dựa trên dự đoán quỹ đạo tối ưu của các mô hình mục tiêu trên

không đã được huấn luyện trước đó [1] và trạng thái các đối tượng trên mặt đất, cũng như

phương án tối ưu phối hợp hoạt động của các PTHL trong hệ thống. Mô hình PTHL được xây

dựng trên bộ thư viện OpenAI Gym sử dụng thuật toán học tăng cường sâu (DQL) để tối ưu hóa

hàm giá trị Q. Sau khi được huấn luyện qua 200 nghìn vòng, mô hình PTHL đã có khả năng tự

động phân tích, nhận thức tình huống, phối hợp các PTHL trong hệ thống, xây dựng phương án

tương tác đối kháng động và chọn ra phương án tối ưu có tính tới các ràng buộc thực tế, để thu

được giá trị cực tiểu của hàm tổn thất tổng thể cho toàn bộ quá trình chiến đấu. So với mô hình

PTHL sử dụng thuật toán PPO được huấn luyện trong cùng một điều kiện môi trường, sau 1000

chu trình tác chiến tương tác với mô hình mục tiêu trên không, mô hình PTHL đề xuất đạt tỉ lệ

chiến thắng 89,1% lớn hơn nhiều so với 77,2% của mô hình sử dụng thuật toán PPO.

Từ khoá: Học tăng cường; Tự động hóa chỉ huy; C4I; DWTA; DQL; OpenAI Gym.

1. MỞ ĐẦU

Bài toán lựa chọn PTHL (hay bài toán chỉ định vũ khí) phòng không là bài toán cốt lõi trong

hệ thống tự động hóa (TĐH) chỉ huy – điều khiển, hỗ trợ người chỉ huy ra quyết định lựa chọn

PTHL để tiêu diệt mục tiêu, nhằm phát huy tối đa khả năng của các PTHL khác nhau về chủng

loại trong cụm phòng không hỗn hợp [2, 3]. Bài toán lựa chọn PTHL là bài toán tối ưu tổ hợp, có

không gian nghiệm mở rộng theo cấp số nhân với sự gia tăng của số lượng PTHL và mục tiêu

hàng không. Ngoài ra, một quyết định hợp lý về lựa chọn PTHL cần quan tâm tới tính chất đa

yếu tố tác động và các đặc tính kỹ - chiến thuật của mỗi loại PTHL cụ thể trong hệ thống. Mô

hình bài toán lựa chọn PTHL được mô tả trong hình 1 [4].

Các phương pháp giải bài toán lựa chọn PTHL đã được đề xuất [2, 5, 6], gồm: phương pháp

quy hoạch tuyến tính, quy hoạch đồ thị ngẫu nhiên và quy hoạch hỗn hợp số nguyên; sử dụng

thuật toán tối ưu siêu mô phỏng. Ngoài ra, trong [7, 8] trình bày các phương pháp giải bài toán ở

dạng ma trận được phát triển từ thuật toán Hungary. Ứng dụng phương pháp học tăng cường

(Reinforcement Learning) để giải bài toán lựa chọn PTHL được Mouton và cộng sự trình bày

trong [9] (2011), và so sánh hai thuật toán học tăng cường Monte Carlo ES và TD Q-Learning

giải bài toán lựa chọn PTHL rút gọn. Tong Wang và cộng sự [10] (2023), ứng dụng mạng học

sâu Q (Deep Q-Learning Network) với thuật toán đàn ong nhân tạo đa mục tiêu cải tiến để lựa

chọn PTHL không người lái trên mặt đất trong môi trường tác chiến đô thị phức tạp. Trong [11]

(2023), B. Gaudet và cộng sự ứng dụng phương pháp học sâu tăng cường (Deep Reinforcement

Learning) để tối ưu hóa chính sách lựa chọn PTHL tiêu diệt đa mục tiêu siêu thanh.

Page 2 of 11

Kỹ thuật điều khiển & Điện tử

12 N. X. Trường, ..., V. C. Thanh, “Ứng dụng phương pháp học tăng cường ... chỉ huy-điều khiển.”

Bài báo trình bày một phương pháp giải bài toán lựa chọn PTHL động (Dynamic weapon

target assignment -DWTA) sử dụng kỹ thuật học tăng cường sâu đa tác nhân (Multi-Agent Deep

Reinforcement Learning), trong đó, các PTHL phòng không đóng vai trò là các tác nhân (agent),

được xây dựng và huấn luyện trên bộ thư viện OpenAI Gym [12], đưa ra quyết định tiêu diệt

mục tiêu trên không trong môi trường tác chiến phức tạp, không chắc chắn. Khác với các phương

pháp trước đây, trong phương pháp đề xuất mô hình PTHL được huấn luyện bằng cách tương tác

trực tiếp với mô hình mục tiêu trên không (một mô hình AI) đã được huấn luyện trước đó (xem

trong [1]), trong môi trường tác chiến động. Điều này làm tăng tính đa dạng và sát với thực tế

của bộ dữ liệu đầu vào huấn luyện. Thuật toán học sâu Q (Deep Q-Learning – DQL) được sử

dụng để tối ưu hóa hàm giá trị Q (Q-value function) của mô hình PTHL đề xuất, bằng kết quả thử

nghiệm chứng minh, với số lượng lớn PTHL thì thuật toán DQL giúp mô hình PTHL có khả

năng học nhanh hơn so với thuật toán tối ưu hóa luật tiệm cận (Proximal Policy Optimization -

PPO) [11, 13]. Sau khi được huấn luyện, các mô hình PTHL được thử nghiệm qua 1000 chu

trình, kết quả thu được mô hình PTHL với thuật toán DQL đạt tỉ lệ chiến thắng 89,1%, so với tỉ

lệ 77,2% của mô hình PPO. Điều này chứng minh mô hình PTHL đề xuất có khả năng ứng dụng

trong các hệ thống TĐH CH-ĐK phòng không thời gian thực.

2. XÂY DỰNG MÔ HÌNH TOÁN HỌC BÀI TOÁN LỰA CHỌN PTHL ĐỘNG

TRONG HỌC TĂNG CƯỜNG SÂU

2.1. Xây dựng mô hình toán học của bài toán lựa chọn PTHL phòng không động

Trong bài toán lựa chọn PTHL động, toàn bộ khoảng thời gian tấn công của kẻ địch (mục tiêu

trên không) tính từ khi được phát hiện đến khi bị tiêu diệt hoàn toàn hoặc hoàn thành nhiệm vụ

chiến đấu là

,

được chia thành các đoạn thời gian tương ứng với chu kỳ bắn của các PTHL.

Chu kỳ bắn của các PTHL có độ dài đủ để cho các PTHL trong cụm phòng không bắn một tập

hợp con vũ khí (tên lửa) của nó và quan sát (một cách hoàn hảo) kết quả của tất cả các lần bắn.

Với phản hồi của thông tin này, hệ thống TĐH CH-ĐK chọn một nhóm PTHL và chỉ định chúng

tiêu diệt các mục tiêu. Trong mỗi chu kỳ, các PTHL được chọn và chỉ định tiêu diệt mục tiêu

nhằm tối đa hóa tổng giá trị dự kiến thiệt hại của các mục tiêu trên không và tối thiểu hóa chi phí

sử dụng PTHL ở giai đoạn cuối cùng của cuộc chiến.

W

1

O1 O2

Or Wm

W

2

T1 T2

Tn

Xác suất tiêu diệt mục tiêu Chi phí sử dụng PTHL Số lượng, kiểu loại vũ khí,... Giá trị mức nguy hiểm của mục tiêu Hình 1. Mô hình bài toán lựa chọn PTHL trong hệ thống TĐH CH-ĐK phòng không.

Bài toán lựa chọn PTHL động trong hình 1, bao gồm các tham số đầu vào như sau:

T=T T T 1 2 , ,..., n

là tập hợp gồm n mục tiêu được phát hiện bởi các cảm biến (các đài ra

đa) trong khu vực tác chiến của hệ thống TĐH CH-ĐK;

W= , ,..., W W W 1 2 m

là tập hợp gồm m PTHL phòng không kết nối vào hệ thống;