ĐỀ XUẤT THUẬT TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG MẠNG LSTM VÀ WORD2VEC
139 lượt xemTừ khóa:
Phân loại văn bản; Xử lý ngôn ngữ tự nhiên; Xử lý dữ liệu; Long Short Term Memory; Word2vec.Tóm tắt
Hiện nay, phân loại văn bản là một trong những ứng dụng cơ bản của xử lý ngôn ngữ tự nhiên. Đặc biệt, những thành tựu gần đây của các mạng học sâu cho thấy các phương pháp học sâu đang làm rất tốt trong việc phân loại văn bản. Các phương pháp này cho thấy hiệu quả trong việc phân loại văn bản với ngôn ngữ tiếng Anh. Tuy nhiên, hiện nay, trong phạm vi nghiên cứu của chúng tôi, không có nhiều nghiên cứu đối với văn bản tiếng Việt. Do đó, trong nghiên cứu này, chúng tôi sử dụng mạng Long Short Term Memory (LSTM) kết hợp với Word2vec để phân loại văn bản nhằm cải thiện hiệu suất và độ chính xác. Kết quả đánh giá mô hình trên bộ văn bản tiếng Việt VNTC [1] đã cho thấy sự khả thi và hứa hẹn áp dụng trong thực tế.