Robust anomaly detection methods for contamination network data

Tuấn Nguyễn; Nguyen Hai Hao; Dang Le Dinh Trang; Nguyen Van Tuan; Cao Van Loi

doi:10.54939/1859-1043.j.mst.79.2022.41-51

Các tác giả

Nguyen Manh Tuan Cyberspace Operation Command, Hanoi, Vietnam
Nguyen Hai Hao Cyberspace Operation Command, Hanoi, Vietnam
Dang Le Dinh Trang Khoa Công nghệ thông tin, Học viện Kỹ thuật quân sự
Nguyen Van Tuan Khoa Công nghệ thông tin, Học viện Kỹ thuật quân sự
Cao Van Loi (Tác giả đại diện) Khoa Công nghệ thông tin, Học viện Kỹ thuật quân sự

DOI:

https://doi.org/10.54939/1859-1043.j.mst.79.2022.41-51

Từ khóa:

Phát hiện bất thường; Biểu diễn ẩn; Học một lớp; Sự nhiễm bẩn.

Tóm tắt

Gần đây, các mô hình biểu diễn không gian ẩn, chẳng hạn như Shrink Autoencoder (SAE), đã thể hiện hiệu năng mạnh mẽ trong việc nâng cao hiệu suất của kỹ thuật phân loại một lớp trong phát hiện bất thường mạng. Tuy nhiên, tập dữ liệu bình thường được dùng để huấn luyện các mô hình đang được giả định là hoàn toàn sạch, không chứa nhiễu và dữ liệu bất thường nào, điều này là khó khả thi trong thực tế. Do đó, bài náo này nghiên cứu khả năng biểu diễn ẩn của SAE trong việc trích xuất dữ liệu có chứa nhiễu. Mục đích là để tìm ra với mức độ nhiễu nào biểu diễn ẩn của SAE có khả năng bị ảnh hưởng mạnh. Bài báo thiết kế một số thí nghiệm với các mức độ nhiễu khác nhau cùng với một số phương pháp sinh nhiễu khác nhau. Các phương pháp biểu diễn đặc trưng khác như Denoising Autoencoder (DAE) và Phân tích thành phần chính (PCA) cũng được sử dụng để so sánh với hiệu suất của SAE. Kết quả thử nghiệm trên bốn kịch bản CTU13 cho thấy rằng, biểu diễn tiềm ẩn của SAE thường hoạt động tốt hơn và ít bị ảnh hưởng bởi nhiễu hơn so với các mô hình biểu diễn đặc trưng khác.

Tài liệu tham khảo

[1]. A. Zimek, E. Schubert, and H.-P. Kriegel, “A survey on unsupervised outlier detection in high-dimensional numerical data,” Statistical Analysis and Data Mining, vol. 5, no. 5, pp. 363–387, 2012.

[2]. G. Pang, L. Cao, and C. Aggarwal, “Deep learning for anomaly detection: Challenges, methods, and opportunities,” in Proceedings of the 14th ACM International Conference on Web Search and Data Mining, pp. 1127–1130, 2021.

[3]. G. Pang, C. Shen, L. Cao, and A. V. D. Hengel, “Deep learning for anomaly detection: A review,” ACM Computing Surveys (CSUR), vol. 54, no. 2, pp. 1–38, 2021.

[4]. V. L. Cao, M. Nicolau, and J. McDermott, “Learning neural representations for network anomaly detection,” IEEE Transactions on Cybernetics, no. 99, pp. 1–14, 2018.

[5]. V. L. Cao, M. Nicolau, and J. McDermott, “A hybrid autoencoder and density estimation model for anomaly detection,” in Parallel Problem Solving from Nature, pp. 717–726, Springer, 2016.

[6]. S. M. Erfani, S. Rajasegarar, S. Karunasekera, and C. Leckie, “High-dimensional and large-scale anomaly detection using a linear one-class svm with deep learning,” in Pattern Recognition 58, p. 121–134, 2016.

[7]. H. N. Nguyen, V. C. Nguyen, N. N. Tran, and V. L. Cao, “Feature representation of autoencoders for unsupervised iot malware detection,” in International Conference on Future Data and Security Engineering, pp. 272–290, Springer, 2021.

[8]. A. S. Iliyasu, U. A. Abdurrahman, and L. Zheng, “Few-shot network intrusion detection using discriminative representation learning with supervised autoencoder,” Applied Sciences, vol. 12, no. 5, p. 2351, 2022.

[9]. G. Pang, L. Cao, L. Chen, and H. Liu, “Learning representations of ultrahigh-dimensional data for random distance-based outlier detection,” in Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining, pp. 2041–2050, 2018.

[10]. Y. Zhou, X. Song, Y. Zhang, F. Liu, C. Zhu, and L. Liu, “Feature encoding with autoencoders for weakly-supervised anomaly detection,” IEEE, 2021.

[11]. P. Guansong, S. Chunhua, J. Huidong, and v. d. H. Anton, “Deep weakly-supervised anomaly detection,” arXIV Computing Surveys (CSUR), vol. 54, no. 2, pp. 1–38, 2020.

Các phương pháp phát hiện bất thường cho dữ liệu chứa nhiễu

Các tác giả

DOI:

Từ khóa:

Tóm tắt

Tài liệu tham khảo

Tải xuống

Đã Xuất bản

Cách trích dẫn

Số

Chuyên mục

Các bài báo được đọc nhiều nhất của cùng tác giả

ISSN: 1859-1043

Ngôn ngữ

Gửi bài mới

Indexed by

Thông tin

Visitors

GTM