关于Top-N最频繁项集挖掘的研究

Research on Top-N Most Frequent Itemsets Mining

下载PDF

导出

摘要最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的Top-N最频繁项集挖掘算法。同样,给出了几个命题和推论,并把它们用于该文算法以提高性能,实验结果表明,所提算法的规则有效率和时间性能优于NApriori算法和IntvMatrix算法。 Most frequent item sets mining is the focus and the difficulty of text association rules mining,and it directly determines the performance of text association rules mining algorithms.Firstly,several most frequent item sets mining algorithms are analyzd and summarized.And then,traditional inverted list is improved.Based on the improved list and set theory,a new TOP-N most frequent itemset mining algorithm combined minimum support threshold dynamic adjustment strategy is presented.In addition,several propositions and deductions for improving the performance of the performance of the provided algorithm are offered.Experimental results show that the provided algorithm is better than Napriori and IntvMatrix.

作者朱颢东李红婵

机构地区郑州轻工业学院计算机与通信工程学院

出处《电子科技大学学报》 EI CAS CSCD 北大核心 2010年第5期757-761,773,共6页 Journal of University of Electronic Science and Technology of China

基金四川省科技计划项目(2008GZ0003)

关键词关联规则倒排表频繁项集集合理论支持度 association rules inverted list requent itemsets set theory supports

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1HAN Jia-wei,PEI Jian,YIN Yi-wen.Mining frequent patterns without candidate generation:a frequent pattern tree approach[J].Data Mining and Knowledge Discovery,2004,8(1):53-87.
2FU A W C,KWONG R W W,TANG J.Mining N-most interesting itemsets[C] //Proceedings of 2000 ISMIS.Berlin:Springer,2000:59-67.
3BODON F.A survey on frequent itemset mining[C] //Proceedings of the ACM SIGKDD Workshop on OSDM'04.Chicago,USA:[s.n.] ,2004:523-531.
4陈晓云,胡运发.N个最频繁项集挖掘算法[J].模式识别与人工智能,2007,20(4):512-518. 被引量：6
5HAJJ M E,ZAIANE O R.Inverted matrix:Efficient discovery of frequent items in large datasets in the context of interactive mining[C] //2003 Int'l Conf on Data Mining and Knowledge Discovery(ACM SIGKDD).Califomia,USA:[s.n.] ,2003:109-118.
6HAJJ M E,ZAIANE O R.Non recursive generation of frequent k-itemsets from frequent pattern tree representations[C] //Proceedings of 5th International Conference on Data Warehousing and Knowledge Discovery.Melbourne:Australia,2003:371-380.
7RACZ B.NonordFP:an FP-growth variation without rebuilding the FP-tree[C] //Proceedings of the IEEE ICDM Workshop on FIMI'04.Brighton,UK:[s.n.] ,2004:1089-1097.
8LIU Gui-mei,LU Hong-jun.AFOPT:an efficient implemefitation of pattern growth approach[C] //Proceedings of the IEEE ICDM Workshop on FIMI'04.Brighton,UK:[s.n.] ,2004:2056-2067.
9陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
10陈晓云,陈袆,王雷,李荣陆,胡运发.基于分类规则树的频繁模式文本分类[J].软件学报,2006,17(5):1017-1025. 被引量：19

二级参考文献42

1郑玲霞,李大学,马万里.基于有向图的关联规则算法[J].重庆邮电学院学报（自然科学版）,2005,17(4):495-498. 被引量：5
2陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
3陈晓云,陈袆,王雷,李荣陆,胡运发.基于分类规则树的频繁模式文本分类[J].软件学报,2006,17(5):1017-1025. 被引量：19
4陈明,史忠植,王文杰.一种有效的基于图的关联规则挖掘算法[J].计算机应用,2006,26(11):2654-2656. 被引量：10
5焦学磊,王新庄.基于矩阵的频繁项集发现算法[J].江汉大学学报（自然科学版）,2007,35(1):43-46. 被引量：6
6贾彩燕倪现君.关联规则挖掘研究述评[J].计算机科学,2003,30(4):145-148.
7Agrawal R, Imielinski T, Swami A. Mining Association Rules Between Sets of Items in Large Databases[C]//Proc. of ACMSIGMOD Int'l Conf. on Management of Data. Washington D. C., USA: [s. n.], 1993.
8Han Jiawei, Pei Jian, Yin Yiwei. Mining Frequent Patterns Without Candidate Generation[C]//Proc. of the 2000 ACM-SIGMOD Int'l Conf. on Management of Data. Dallas, TX, USA: [s. n.], 2000.
9Wu Fan. A New Approach to Mine Frequent Patterns Using Item-transformation Methods[J]. Information Systems, 2007, 32(7): 1056-1072.
10王柏盛,刘寒冰,靳书和,马丽艳.基于矩阵的关联规则挖掘算法[J].微计算机信息,2007,23(05X):144-145. 被引量：18

共引文献109

1李华.二进制挖掘算法在Web使用挖掘中的应用[J].计算机时代,2009(4):56-57.
2高影繁,马润波,刘玉树.一种结合参数优化的贝叶斯文本分类算法[J].计算机研究与发展,2007,44(z2):1-5.
3王盛,董黎刚,李群.一种基于逆序编码的关联规则挖掘研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):169-172. 被引量：1
4周翠红,贺建军.挖掘关联规则中对Apriori算法的一个改进[J].湖南城市学院学报（自然科学版）,2006,15(4):67-69. 被引量：2
5陈晓云,胡运发.N个最频繁项集挖掘算法[J].模式识别与人工智能,2007,20(4):512-518. 被引量：6
6国伟,王浩.关联规则与直接模糊聚类算法在个性化推荐中的应用[J].电脑开发与应用,2007,20(10):44-46.
7唐培丽,解飞,胡明.基于数据仓库的多维关联规则挖掘在电信系统中的应用[J].情报科学,2007,25(10):1552-1555.
8吕橙,郝莹,张翰韬.基于垂直二进制位图的频繁模式挖掘算法[J].山东大学学报（理学版）,2007,42(5):24-29. 被引量：2
9戴新喜,白似雪.一种高效的基于模式矩阵的Apriori改进算法[J].广西师范大学学报（自然科学版）,2007,25(4):176-179. 被引量：7
10胡明,唐培丽,许建潮.基于OLAP的多维关联规则挖掘研究[J].东北师大学报（自然科学版）,2007,39(4):54-59. 被引量：2

1陈超,刘才铭.基于最小支持度阈值动态调整策略的最频繁项集挖掘算法[J].兰州理工大学学报,2012,38(4):85-88. 被引量：1
2孙序.基于倒排表和集合的TOP-N最频繁项集挖掘算法[J].科技信息,2011(27).
3孟祥鹏.一种改进的频繁项集挖掘算法[J].濮阳职业技术学院学报,2009,22(4):148-150.
4陈应霞,陈艳.关联规则中的Apriori挖掘算法改进[J].长江大学学报（自科版）（上旬）,2008,5(4):341-343. 被引量：6
5陈小玉,杨艳燕,刘克成,朱颢东.基于改进倒排表和集合的最频繁项集挖掘算法[J].计算机应用研究,2012,29(6):2135-2137. 被引量：1
6刘战东.Web数据挖掘与挖掘算法探讨[J].电脑与电信,2008(12):65-67. 被引量：1
7胡传平.智能视频分析检索助力大数据的实现[J].中国公共安全,2015,0(8):68-71. 被引量：4
8耿新青,娄亚斌,张恩胜.一种基于哈希技术的文本关联规则算法[J].鞍山师范学院学报,2007,9(6):36-39.
9王少茹.基于Web数据挖掘的探索[J].电子世界,2014(4):11-12.
10杨勇.采用数据库优化技术的Apriori算法改进研究[J].计算机与数字工程,2014,42(8):1352-1354. 被引量：2

电子科技大学学报

2010年第5期

浏览历史

内容加载中请稍等...

关于Top-N最频繁项集挖掘的研究

参考文献14

二级参考文献42

共引文献109

相关作者

相关机构

相关主题

浏览历史