Hand action recognition in rehabilitation exercise method using R(2+1)D deep learning network and interactive object information

Nguyen Sinh Huy; Le Thi Thu Hong; Nguyen Hoang Bach; Nguyen Chi Thanh; Doan Quang Tu; Truong Van Minh; Vu Hai

doi:10.54939/1859-1043.j.mst.CSCE6.2022.77-91

Các tác giả

Nguyen Sinh Huy (Tác giả đại diện) Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Le Thi Thu Hong Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Nguyen Hoang Bach Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Nguyen Chi Thanh Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Doan Quang Tu Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự
Truong Van Minh Trường Điện - Điện tử, Đại học Bách khoa Hà Nội
Vu Hai Trường Điện - Điện tử, Đại học Bách khoa Hà Nội

DOI:

https://doi.org/10.54939/1859-1043.j.mst.CSCE6.2022.77-91

Từ khóa:

Nhận dạng hoạt động; Bài tập phục hồi chức năng; Theo dõi và phát hiện đối tượng; R(2 1)D.

Tóm tắt

Nhận dạng hoạt động của tay trong các bài tập phục hồi chức năng chính là tự động nhận biết bệnh nhân đã tập những bài tập PHCN nào, đây là bước quan trọng trong hệ thống AI hỗ trợ hỗ trợ bác sỹ đánh giá khả năng tập và phục hồi của bệnh nhân trong các bài tập phục hồi chức năng. Hệ thống này sử dụng các video thu được từ camera đeo trên người bệnh nhân để tự động nhận biết và đánh giá khả năng tập PHCN của bệnh nhân. Trong bài báo này chúng tôi đề xuất một mô hình nhận biết hoạt động của tay bệnh nhân trong các bài tập phục hồi chức năng. Mô hình này là sự kết hợp của kết quả mạng học sâu nhận biết hoạt động trên Video RGB R(2+1)D và thuật toán phát hiện đối tượng tương tác chính trong các bài tập, từ đó cho ra kết quả nhận biết bài tập của bệnh nhân với độ chính xác cao. Mô hình đề xuất được cài đặt, huấn luyện và thử nghiệm trên bộ dữ liệu về các bài tập phục hồi chức năng thu thập từ camera đeo của các bệnh nhân tham gia bài tập. Kết quả thực nghiệm cho thấy độ chính xác trong nhận dạng bài tập khá cao, trung bình đạt 88,43% trên các dữ liệu thử nghiệm độc lập với dữ liệu huấn luyện. Kết quả nhận dạng hoạt động của phương pháp đề xuất vượt trội so với kết quả nhận dạng của của mạng nhận dạng hoạt động R(2+1)D và làm giảm tỉ lệ nhầm lẫn giữa các bài tập có cử chỉ tay gần giống nhau. Sự hợp kết quả thuật toán xác định đối tượng tương tác trong bài tập đã làm cải thiện đáng kể độ chính xác của mô hình nhận dạng hoạt động.

Tài liệu tham khảo

[1]. Fathi, A., Farhadi, A. and Rehg, J.M. “Understanding egocentric activities”. In 2011 international conference on computer vision (pp. 407-414). IEEE, (2011). DOI: https://doi.org/10.1109/ICCV.2011.6126269

[2]. Fathi, A., Li, Y. and Rehg, J. M. “Learning to recognize daily actions using gaze”. In European Conference on Computer Vision (pp. 314-327). Springer, Berlin, Heidelberg, (2012). DOI: https://doi.org/10.1007/978-3-642-33718-5_23

[3]. Fathi, A., Ren, X. and Rehg, J. M. “Learning to recognize objects in egocentric activities”. In CVPR 2011 (pp. 3281-3288). IEEE, (2011). DOI: https://doi.org/10.1109/CVPR.2011.5995444

[4]. Li, Y., Ye, Z. and Rehg, J.M. “Delving into egocentric actions”. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 287-295), (2015). DOI: https://doi.org/10.1109/CVPR.2015.7298625

[5]. McCandless, T. and Grauman, K. “Object-Centric Spatio-Temporal Pyramids for Egocentric Activity Recognition”. In BMVC (Vol. 2, p. 3), (2013). DOI: https://doi.org/10.5244/C.27.30

[6]. Pirsiavash, H. and Ramanan, D. “Detecting activities of daily living in first-person camera views”. In 2012 IEEE conference on computer vision and pattern recognition (pp. 2847-2854). IEEE, (2012). DOI: https://doi.org/10.1109/CVPR.2012.6248010

[7]. Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y. and Paluri, M. “A closer look at spatiotemporal convolutions for action recognition”. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 6450-6459), (2018). DOI: https://doi.org/10.1109/CVPR.2018.00675

[8]. Hara, K., Kataoka, H. and Satoh, Y. “Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet?” In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 6546-6555), (2018). DOI: https://doi.org/10.1109/CVPR.2018.00685

[9]. Wang, L., Xiong, Y., Wang, Z., Qiao, Y., Lin, D., Tang, X. and Van Gool, L. Temporal segment networks for action recognition in videos. IEEE transactions on pattern analysis and machine intelligence, 41(11), pp.2740-2755, (2018). DOI: https://doi.org/10.1109/TPAMI.2018.2868668

[10]. Bochkovskiy, A., Wang, C.Y. and Liao, H.Y.M. “Yolov4: Optimal speed and accuracy of object detection”. arXiv preprint arXiv:2004.10934, (2020).

[11]. Sinh Huy Nguyen, Hoang Bach Nguyen, Thi Thu Hong Le, Chi Thanh Nguyen, Van Loi Nguyen, Hai Vu, "Hand Tracking and Identifying in the Egocentric Video Using a Graph-Based Algorithm,” In Proceeding of the 2022 International Conference on Communications and Electronics (ICCE 2022).

Phương pháp nhận biết hoạt động tay trong bài tập phục hồi chức năng sử dụng mạng học sâu nhận dạng hoạt động và thông tin xác định đối tượng tương tác

Các tác giả

DOI:

Từ khóa:

Tóm tắt

Tài liệu tham khảo

Tải xuống

Đã Xuất bản

Cách trích dẫn

Số

Chuyên mục

Các bài báo được đọc nhiều nhất của cùng tác giả

ISSN: 1859-1043

Ngôn ngữ

Gửi bài mới

Indexed by

Thông tin

Visitors

GTM