Tăng cường dữ liệu ảnh tàu thuyền chụp từ UAV trong giám sát hàng hải sử dụng mô hình ngôn ngữ đa phương thức và mô hình khuếch tán

Các tác giả

  • Le Thi Thu Hong Viện Công nghệ thông tin và Điện tử, Viện Khoa học và Công nghệ quân sự
  • Pham Thu Huong Viện Công nghệ thông tin và Điện tử, Viện Khoa học và Công nghệ quân sự
  • Doan Quang Tu Viện Công nghệ thông tin và Điện tử, Viện Khoa học và Công nghệ quân sự
  • Nguyen Chi Thanh (Tác giả đại diện) Viện Công nghệ thông tin và Điện tử, Viện Khoa học và Công nghệ quân sự

DOI:

https://doi.org/10.54939/1859-1043.j.mst.IITE.2025.160-168

Từ khóa:

Khuếch tán; Tổng hợp ảnh; Tăng cường dữ liệu; Phát hiện tàu thuyền.

Tóm tắt

Trong lĩnh vực giám sát hàng hải, việc phát hiện tàu thuyền từ ảnh chụp bởi thiết bị bay không người lái (UAV) đóng vai trò quan trọng trong đảm bảo an ninh và an toàn trên biển. Tuy nhiên, sự hạn chế về số lượng và tính đa dạng của dữ liệu gán nhãn thường làm giảm hiệu suất của các mô hình trong môi trường hàng hải phức tạp. Nghiên cứu này giới thiệu một quy trình tăng cường dữ liệu mới, sử dụng các mô hình sinh đa phương thức để tạo ra các mẫu tổng hợp chân thực nhằm mở rộng tập huấn luyện. Mô tả cảnh được tự động sinh từ ảnh UAV bằng Gemma, một mô hình ngôn ngữ đa phương thức gọn nhẹ, sau đó được dùng để hướng dẫn FLUX, một mô hình khuếch tán chuyển văn bản thành hình ảnh, tạo ra các cảnh có tàu trong nhiều điều kiện môi trường khác nhau. Chiến lược gán nhãn lai được áp dụng, kết hợp giữa dự đoán ban đầu của YOLO-World và tinh chỉnh thủ công nhằm đảm bảo độ chính xác của nhãn. Tập dữ liệu tổng hợp sau đó được kết hợp với dữ liệu gốc để huấn luyện mô hình phát hiện tàu. Thí nghiệm trên bộ dữ liệu VESSELImg cho thấy phương pháp đề xuất giúp mô hình YOLOv11 tăng chỉ số mAP từ 0.775 lên 0.805 ở ngưỡng IoU 0.50:0.95. Kết quả này khẳng định hiệu quả của việc tích hợp mô hình ngôn ngữ và khuếch tán đa phương thức trong tăng cường dữ liệu chuyên biệt, giúp cải thiện khả năng khái quát và độ bền vững của hệ thống phát hiện tàu từ UAV.

Tài liệu tham khảo

[1]. Cheng, S., Zhu, Y., & Wu, S. “Deep learning based efficient ship detection from drone-captured images for maritime surveillance.” Ocean engineering, 285, 115440, (2023).

[2]. Shorten, C., & Khoshgoftaar, T. M. “A survey on image data augmentation for deep learning.” Journal of big data, 6(1), 1–48, (2019).

[3]. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10684–10695, (2022).

[4]. Team, G et al. “Gemma: Open models based on gemini research and technology.” arXiv preprint arXiv:2403.08295, (2024).

[5]. Black Forest Lab. “FLUX.”, (2024). https://github.com/black-forest-labs/flux.

[6]. Cheng, T., Song, L., Ge, Y., Liu, W., Wang, X., & Shan, Y. “Yolo-world: Real-time open-vocabulary object detection.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, –, 16901–16911, (2024).

[7]. Glenn, J., & Jing, Q. “Ultralytics YOLO11.”, (2024). https://github.com/ultralytics/ultralytics.

[8]. Goodfellow. I et al. “Generative adversarial nets.” Advances in neural information processing systems, pp. 2672–2680, (2014).

[9]. Xu, M., Xie, L., Liu, Y., Wang, S., & Zhang, Y. “Generative adversarial networks in remote sensing: A review.” ISPRS journal of photogrammetry and remote sensing, 166, 296–312, (2020).

[10]. Zhang, Y., Zhang, C., Zhang, Q., & Xie, W. “Data augmentation with conditional GAN for aerial scene classification.” Remote sensing, 11(3), 243, (2019).

[11]. Dhariwal, P., & Nichol, A. “Diffusion models beat GANs on image synthesis.” Advances in neural information processing systems, 34, 8780–8794, (2021).

[12]. Ho, J., Jain, A., & Abbeel, P. “Denoising diffusion probabilistic models.” arXiv preprint arXiv:2006.11239, (2020).

[13]. Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E., Salimans, T., Ho, J., Fleet, D., & Norouzi, M. “Imagen: Text-to-image diffusion models.” International conference on machine learning (ICML), (2022).

[14]. Wolleb, J., Dejakum, K., Sandkühler, P., Reich, M., Lunz, S., & Cattin, P. C. “Diffusion models for medical anomaly detection.” Medical image analysis, 76, 102327, (2022).

[15]. Rubis, B., Cacace, J., Rodriguez, J., Company, R., Tanner, M., Arzo, R., & Cayero, J. “VESSELImg: A large UAV-based vessel image dataset for port surveillance.” International conference on unmanned aircraft systems (ICUAS), 76–83, (2024).

[16]. https://huggingface.co/google/gemma-3-4b-it

[17]. https://huggingface.co/black-forest-labs/FLUX.1-dev

Tải xuống

Đã Xuất bản

30-10-2025

Cách trích dẫn

[1]
Le Thi Thu Hong, Pham Thu Huong, Doan Quang Tu, và Nguyen Chi Thanh, “Tăng cường dữ liệu ảnh tàu thuyền chụp từ UAV trong giám sát hàng hải sử dụng mô hình ngôn ngữ đa phương thức và mô hình khuếch tán”, JMST, số p.h IITE, tr 160–168, tháng 10 2025.

Số

Chuyên mục

Công nghệ thông tin

Các bài báo được đọc nhiều nhất của cùng tác giả

1 2 > >>