Thứ tư, 25/01/2017 00:13
Số 1 năm 20176 - 11
Nghiên cứu phương pháp so sánh độ tương đồng văn bản bằng độ đo cosine
Phạm Thị Hải Vân*, Phạm Hữu Lợi
*Tác giả liên hệ: Email: phamhaivan1979@gmail.com
Trường Đại học Mỏ - Địa chất
Ngày nhận bài: 12/09/2016; ngày chuyển phản biện: 15/09/2016; ngày nhận phản biện: 15/11/2016; ngày chấp nhận đăng: 25/11/2016
Tóm tắt:
Hiện tại đã có một số giải pháp cho việc phát hiện sao chép và một vài công cụ phần mềm cho phép phát hiện một tài liệu (gọi là văn bản kiểm tra) có sao chép từ một tập hợp các tài liệu nguồn hay không. Các phương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi, chỉ thực sự có hiệu quả nếu việc sao chép là “nguyên văn”. Bài báo đề xuất phương pháp so sánh độ tương đồng văn bản bằng độ đo cosine, là một phương pháp hiệu quả để phát hiện việc sao chép văn bản, góp phần hạn chế tình trạng xâm phạm quyền sở hữu trí tuệ về công bố khoa học hiện nay.
Từ khóa:
độ đo cosine, tương đồng, văn bản.
A research on the text comparison method using cosine similarity
Received: 12 September 2016; accepted: 25 November 2016
Abstract:
Currently, there are a number of solutions for detection of copy and a few software tools that allow detecting whether a document (called writing checks) has copied from a set of source materials or not. These methods are mainly based on the string search and matching, only really effective if the copy is “verbatim”. This paper proposes the method of text similarity comparison with cosine measure, an effective method to detect copying document, contributing to limit the infringement of intellectual property rights on scientific publications at present.
Keywords:
cosine measure, similarities, text.
Classification number:
1.2