DeepThermal Outdoor: Bộ dữ liệu ảnh nhiệt thu thập từ góc nhìn thứ nhất

316 lượt xem

Các tác giả

  • Nguyen Hoang Bach (Tác giả đại diện) Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
  • Doan Quang Tu Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
  • Pham Duy Thai Khoa Kỹ thuật Điều khiển, Học viện Kỹ thuật quân sự
  • Pham Dang Quang Khoa Công nghệ thông tin, Học viện Kỹ thuật quân sự
  • Nguyen Van Duy Khoa Công nghệ thông tin, Trường Đại học Thuỷ lợi

DOI:

https://doi.org/10.54939/1859-1043.j.mst.CSCE6.2022.92-104

Từ khóa:

Trí tuệ nhân tạo; Ảnh nhiệt; Bài toán phát hiện người.

Tóm tắt

Ngày nay thiết bị quan sát ảnh nhiệt được trang bị cho người lính bộ binh là xu thế nhằm nâng cao khả năng tác chiến của người lính. Người lính cùng một thời điểm phải thực hiện nhiều nhiệm vụ khác nhau, do đó việc trang bị tính năng tự động phát hiện mục tiêu đặc biệt là đối tượng người, và cảnh báo là cần thiết cho việc thông minh hóa và phát huy tối đa hiệu quả của khí tài quan sát ảnh nhiệt. Trí tuệ nhân tạo và học sâu là các phương pháp thể hiện được độ chính xác vượt trội so với các phương pháp trước đây. Tuy nhiên, các phương pháp học sâu tiên tiến đều phụ thuộc vào mức độ tổng quát và sự đa dạng của tập dữ liệu huấn luyện. Bài báo này giới thiệu tập dữ liệu ảnh nhiệt DeepThermal Outdoor, được thu thập từ thiết bị gắn trên cơ thể người lính bộ binh tại nhiều địa điểm địa hình khác nhau. Bộ dữ liệu được gán nhãn tập trung vào đối tượng người với các tư thế vận động khác nhau. Bộ dữ liệu bao gồm 10,190 ảnh và 22,464 nhãn đối tượng. Một số phương pháp học sâu phát hiện đối tượng được huấn luyện và kiểm thử trên bộ dữ liệu này và kết quả chỉ ra rằng còn nhiều thách thức cần giải quyết đối với phát hiện người trên ảnh nhiệt đối với điều kiện tác chiến đặc thù của người lính bộ binh. Bộ dữ liệu sẽ góp phần tăng độ chính xác các phương pháp học sâu phát hiện người trên ảnh nhiệt cũng như đánh giá khả năng áp dụng trên thực tế của một phương pháp học sâu.

Tài liệu tham khảo

[1]. ARC4: Augmented Reality Command Control Communicate and Coordinate. https://www.ara.com/arc4/

[2]. MOHOC production. https://www.mohoc.com/product/

[3]. A. Toet et al. Tno image fusion dataset. https://doi.org/10.6084/m9.figshare.1008029.v1.

[4]. J. W. Davis and V. Sharma. “Otcbvs benchmark dataset collection”. http://vcipl-okstate.org/pbvs/bench/, 2007.

[5]. S. Hwang, J. Park, N. Kim, Y. Choi, and I. S. Kweon. “Multispectral pedestrian detection: Benchmark dataset and baselines” in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), (2015). DOI: https://doi.org/10.1109/CVPR.2015.7298706

[6]. O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional networks for biomedical image segmentation” in Proc. Int. Conf. Med. Image Comput. Comput.-Assist. Intervent. Cham, Switzerland: Springer, (2015). DOI: https://doi.org/10.1007/978-3-319-24574-4_28

[7]. M. A. Keck, J.W. Davis, “A two-stage template approach to person detection in thermal imagery”. In: Proc. Wkshp. Applications of Comp. Vision, (2005).

[8]. M. Arens, K. Jungling, “Feature based person detection beyond the visible spectrum” in IEEE CVPR Workshops, (2009). DOI: https://doi.org/10.1109/CVPRW.2009.5204085

[9]. T. Tuytelaars, H. Bay, L. V. Gool, “Surf: Speeded up robust features” in: Proc. 9th European Conference on Computer Vision, Graz, Austria, (2006).

[10]. W. Wang, J. Zhang, C. Shen, “Improved human detection and classification in thermal images” in: IEEE 17th International Conference on Image Processing, (2010). DOI: https://doi.org/10.1109/ICIP.2010.5649946

[11]. B. Qi, V. John, Z. Liu, S. Mita, “Use of sparse representation for pedestrian detection in thermal images” in: CVPR workshop, IEEE, (2014).

[12]. Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), (2016). DOI: https://doi.org/10.1109/CVPR.2016.91

[13]. Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks.", Advances in neural information processing systems 28 (2015).

[14]. Liu, Wei, et al. "SSD: Single shot multibox detector.", in European conference on computer vision. Springer, Cham, (2016). DOI: https://doi.org/10.1007/978-3-319-46448-0_2

[15]. Jia, Xinyu and Zhu, Chuang and Li, Minzhen and Tang, Wenqi and Zhou, Wenli, “LLVIP: A Visible-infrared Paired Dataset for Low-light Vision”, in: Proceedings of the IEEE/CVF International Conference on Computer Vision, (2021). DOI: https://doi.org/10.1109/ICCVW54120.2021.00389

[16]. K. R. Akshatha, et al. "Human Detection in Aerial Thermal Images Using Faster R-CNN and SSD Algorithms." in Electronics, (2022). DOI: https://doi.org/10.3390/electronics11071151

[17]. N. U. Huda, B. D. Hansen, R. Gade, T. B. Moeslund, “The effect of a diverse dataset for transfer learning in thermal person detection”, in Sensors, (2020). DOI: https://doi.org/10.3390/s20071982

[18]. Devaguptapu, Chaitanya, et al., "Borrow from anywhere: Pseudo multi-modal object detection in thermal imagery.", in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), (2019). DOI: https://doi.org/10.1109/CVPRW.2019.00135

Tải xuống

Đã Xuất bản

30-12-2022

Cách trích dẫn

Nguyen Hoang Bach, Doan Quang Tu, Pham Duy Thai, Pham Dang Quang, và Nguyen Van Duy. “DeepThermal Outdoor: Bộ dữ liệu ảnh nhiệt Thu thập từ góc nhìn thứ nhất”. Tạp Chí Nghiên cứu Khoa học Và Công nghệ quân sự, số p.h CSCE6, Tháng Chạp 2022, tr 92-104, doi:10.54939/1859-1043.j.mst.CSCE6.2022.92-104.

Số

Chuyên mục

Nghiên cứu khoa học

##category.category##

Các bài báo được đọc nhiều nhất của cùng tác giả