Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set

Võ Đình Bảy^1*, Nguyễn Tấn Phúc²

* Tác giả liên hệ: Email: bayvodinh@gmail.com

¹ Khoa Công nghệ thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh

² Trung tâm Ngoại ngữ - Tin học, Trường Đại học Khánh Hòa

Ngày nhận bài: 03/07/2017; ngày chuyển phản biện: 01/01/0001; ngày nhận phản biện: 04/08/2017; ngày chấp nhận đăng: 10/08/2017

Tóm tắt:

Trong khi khai phá tập phổ biến chỉ quan tâm đến sự xuất hiện của các mục trong giao dịch (nghĩa là chúng có hay không có trong các giao dịch) thì khai phá tập hữu ích cao (HUI - High utility itemset) lại quan tâm đến lợi nhuận thu được khi bán các tập mục cùng nhau. Đã có nhiều thuật toán được phát triển nhằm nâng cao hiệu quả khai phá HUI, trong đó EFIM (EFficient high-utility Itemset Mining) là thuật toán mới nhất áp dụng nhiều kỹ thuật để cải thiện tốc độ và không gian tìm kiếm. Tuy nhiên, EFIM vẫn còn tốn nhiều chi phí quét các dòng dữ liệu để xác định sự liên quan đến ứng viên đang xét làm giảm hiệu quả của thuật toán, đặc biệt là đối với cơ sở dữ liệu (CSDL) thưa. Bài báo này đề xuất giải pháp chiếu ngược P-set để giảm số lượng giao dịch cần xét trong thuật toán EFIM và vì vậy, làm giảm thời gian khai phá HUI. Một thuật toán cải tiến từ EFIM (IEFIM - Improve EFficient high-utility Itemset Mining) dựa trên P-set cũng được đề nghị. Kết quả thực nghiệm cho thấy, thuật toán IEFIM làm giảm đáng kể số lượng giao dịch cần xét và thời gian thực thi trên các CSDL thưa.

Từ khóa:

Khai phá dữ liệu, khai phá tập hữu ích cao, tỉa ứng viên.

Chỉ số phân loại:

1.2

Efficient solution for mining High Utility Itemsets by reverse projection P-set

Dinh Bay Vo^1*, Tan Phuc Nguyen²

¹ Faculty of Information Technology, Ho Chi Minh City University of Technology

² Foreign Languages and Informatics Center, Khanh Hoa University

Received: 3 July 2017; accepted: 10 August 2017

Abstract:

Mining frequent itemsets just focuses on mining items which have the same importance (e.g., unit profit) and may not appear more than once in each transaction. On the contrary, mining high utility itemsets (HUIs) considers items which have different unit profits and may have non-binary purchase quantities in transactions. Basically, mining HUIs is to find the items that produce a higher profit than those bought frequently. There have been many algorithms developed for mining HUIs, among which EFIM is the latest algorithm which applies several techniques to improve the runtime and the search space. However, the cost of EFIM for scanning transactions to determine candidate relevance is high, which reduces the efficiency of the algorithm, especially on sparse databases. In this paper, the authors developed a P-set structure and proposed an improved algorithm of EFIM to reduce the number of transaction scans and thereby reduce the mining time. Experimental results showed that the improved algorithm reduced significantly the number of transaction scans and the mining time, especially on sparse databases.

Keywords:

Data mining, high utility itemset mining, pruning candidates

Classification number:

1.2

Lượt dowload: 528 Lượt xem: 1336

Các tin mới

Các tin đã đưa

Đánh giá

(Di chuột vào ngôi sao để chọn điểm)

Chấm điểm