Thứ tư, 25/01/2017 00:13
Số 1 năm 20176 - 11

Nghiên cứu phương pháp so sánh độ tương đồng văn bản bằng độ đo cosine

Phạm Thị Hải Vân*, Phạm Hữu Lợi 

*Tác giả liên hệ: Email: phamhaivan1979@gmail.com
 
Trường Đại học Mỏ - Địa chất 

Ngày nhận bài: 12/09/2016; ngày chuyển phản biện: 15/09/2016; ngày nhận phản biện: 15/11/2016; ngày chấp nhận đăng: 25/11/2016

Tóm tắt:

Hiện tại đã có một số giải pháp cho việc phát hiện sao chép và một vài công cụ phần mềm cho phép phát hiện một tài liệu (gọi là văn bản kiểm tra) có sao chép từ một tập hợp các tài liệu nguồn hay không. Các phương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi, chỉ thực sự có hiệu quả nếu việc sao chép là “nguyên văn”. Bài báo đề xuất phương pháp so sánh độ tương đồng văn bản bằng độ đo cosine, là một phương pháp hiệu quả để phát hiện việc sao chép văn bản, góp phần hạn chế tình trạng xâm phạm quyền sở hữu trí tuệ về công bố khoa học hiện nay.

Từ khóa:

 độ đo cosine, tương đồng, văn bản. 

Chỉ số phân loại:
1.2

A research on the text comparison method using cosine similarity

Received: 12 September 2016; accepted: 25 November 2016

Abstract:

Currently, there are a number of solutions for detection of copy and a few software tools that allow detecting whether a document (called writing checks) has copied from a set of source materials or not. These methods are mainly based on the string search and matching, only really effective if the copy is “verbatim”. This paper proposes the method of text similarity comparison with cosine measure, an effective method to detect copying document, contributing to limit the infringement of intellectual property rights on scientific publications at present.

Keywords:

cosine measure, similarities, text. 

Classification number:
1.2
Lượt dowload: 0 Lượt xem: 1193

Đánh giá

X
(Di chuột vào ngôi sao để chọn điểm)