Thứ bảy, 25/08/2018 00:48
Số 8 năm 20181 - 7Download

Gom nhóm văn bản dựa trên mẫu hữu ích được đánh trọng phổ biến

Trần Thanh Trâm1, Võ Đình Bảy2*

*Tác giả liên hệ: Email: bayvodinh@gmail.com

 

1Trường Đại học Công nghệ thông tin, Đại học Quốc gia TP Hồ Chí Minh

2Khoa Công nghệ thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh

Gom nhóm văn bản là chủ đề quan trọng trong khai thác dữ liệu văn bản, và phương pháp hiệu quả để gom nhóm văn bản là dựa trên mẫu phổ biến. Đã có nhiều thuật toán được phát triển nhằm nâng cao độ chính xác cho bài toán gom nhóm văn bản dựa trên mẫu phổ biến, nhưng lại không quan tâm tới trọng số của từ trong văn bản. Trong bài báo này, các tác giả đề xuất một phương pháp mới để gom nhóm văn bản dựa vào mẫu hữu ích được đánh trọng phổ biến thông qua việc sử dụng TF (Term Frequency) cho mỗi từ trong văn bản. Trọng số của từ trên toàn bộ tập văn bản được tính dựa vào IDF (Inverse Document Frequency), sau đó sử dụng thuật toán MWIT-FWUI để khai thác các mẫu hữu ích phổ biến. Tiếp theo, tiến hành gom nhóm văn bản bằng thuật toán MC (Maximum Capturing). Kết quả thử nghiệm trên kho ngữ liệu gồm 1.600 văn bản (16 chủ đề) cho thấy, phương pháp mới đã cải thiện đáng kể độ chính xác của việc gom nhóm văn bản so với phương pháp dựa vào mẫu phổ biến.

Lượt dowload: 568 Lượt xem: 1222
TAGS :

Đánh giá

X
(Di chuột vào ngôi sao để chọn điểm)