一种基于倒排索引的频繁项集挖掘方法被引量：1

A Frequent Item Set Mining Method Based on Inverted Index

下载PDF

导出

摘要针对频繁项集挖掘算法中多次扫描数据库、生成大量无效频繁项集的问题,提出一种基于倒排索引和二维数组的挖掘算法。通过一次扫描数据库建立包含事务的倒排索引,解决多次扫描数据库的问题。在二维数组存储候选频繁项集时,引入标志位约束,避免产生大量无效的频繁项集。与其他算法在不同规模的数据集上进行性能比较,发现算法在数据集超过25万时执行效率优于其他算法。通过实验验证了所提出算法的高效性和可行性。 In mining algorithm for frequent itemsets with repeatedly scanning database and mining result itemsets are not frequent. In this paper,a new mining algorithm is developed based on inverted index and two-dimensional array. The problem of multiple scans of the database is solved by creating an inverted index with transaction by scanning the database once. When a two-dimensional array stores candidate frequent itemsets,a flag bit constraint is introduced to avoid generating a large number of invalid frequent itemsets. Compared with other algorithms on different scale data sets,it is found that the algorithm performs better than other algorithms when the data set exceeds 250,000. The results from experiments shows that the proposed algorithm is efficient and feasible.

作者贾丽波姜晓明叶青陈占芳 JIA Libo;JIANG Xiaoming;YE Qing;CHEN Zhanfang(School of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022)

机构地区长春理工大学计算机科学技术学院

出处《长春理工大学学报（自然科学版）》 2019年第2期117-119,124,共4页 Journal of Changchun University of Science and Technology(Natural Science Edition)

基金吉林省科技厅项目(KYC-JC-XM-2018-03) 吉林省教育厅科技攻关项目(KYC-JC-XM-2016-021)

关键词频繁项集挖掘倒排索引二维数组 frequent item set mining inverted index two-dimensional array

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1徐春,李广原,王玄,田换.一种基于倒排索引树的增量更新关联挖掘算法[J].计算机工程与科学,2016,38(5):1039-1045. 被引量：3
2Hamed Dinari,Hassan Naderi.A method for improving graph queries processing using positional inverted index (P.I.I) idea in search engines and parallelization techniques[J].Journal of Central South University,2016,23(1):150-159. 被引量：2
3陈衡,刘玉文.基于二维数组和十字链表的Apriori算法[J].德州学院学报,2017,33(2):63-67. 被引量：1
4傅向华,陈冬剑,王志强.基于倒排索引位运算的深度优先频繁项集挖掘[J].小型微型计算机系统,2012,33(8):1747-1751. 被引量：7

二级参考文献40

1陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
2CHENG J, KE Y, NG W, LU A. FG-index: Towards verification-free query processing on graph databases[C]/ / International Conference on Management of Data. Beijing, 2007: 857-872.
3BERENDT B, HOTHO A, STUMME G Semantic web mining[C]// Conference International Semantic Web (ISWC). 2002: 264-278.
4MISRA S, BARTHWAL R, OBAIDAT M S. Communication detection in an integrated internet of things and social network architecture[C]// Communication QOS, Reliability and Modeling Syposium. IEEE, 2012: 2787-2805.
5WASSERMAN S, IACOBUCCI F. Social network analysis: Methods and applications[M]. Cambridge University Press, 1994.
6YAN L, WANG J. Extracting regular behaviors from social media networks[C]// Third International Conference on Multimedia Information Networking and Security. 2011.
7CALVIN K. Logic induction of valid behavior specifications for intrusion detection[C]// IEEE Symposium on Security and Privacy (S&P). 2000: 142-155.
8HILMI Y, ZAKl M J. Graph indexing for reachability queries[C]// 26th International Conference on Data Engineering Workshops (ICDEW). 2010: 321-324.
9XIAOGANG Y, YE T, TAO P, CANFENG C, JIAN M. Semantic-based graph index for mobile photo search[C]// Second International Workshop on Education Technology and Computer Science. 2010: 193-197.
10PENG T, WANG W, GONG X, TIAN Y, YANG X. A graph indexing approach for content-based recommendation system[C]// IEEE Second International Conference on Multimedia and Information Technology (MMIT). 2010: 93-97.

共引文献9

1张岳,王洪国,邵增珍,赵建秀.基于先验位运算的频繁项集挖掘[J].计算机应用研究,2013,30(9):2610-2612. 被引量：4
2张步忠,程玉胜,王则林.基于片上多核的频繁项集并行挖掘算法[J].计算机科学,2014,41(3):55-58. 被引量：3
3易宗剑,彭月英,覃晓,唐涛.一种基于分治策略与位运算的频繁项集挖掘算法[J].广西师范学院学报（自然科学版）,2015,32(1):50-56.
4张亚梅,张皓,海本斋,廖晓飞.扩展WIT-树融合Diffset策略的频繁加权项集快速挖掘算法[J].计算机应用研究,2015,32(12):3574-3578. 被引量：2
5李雪迪,郑彦.基于分布式倒排索引的频繁项集挖掘[J].计算机技术与发展,2016,26(3):101-104. 被引量：2
6黄瑜.大型数据库的关联挖掘算法设计[J].现代电子技术,2018,41(20):45-48. 被引量：2
7HE Jing,YAO Shao-wen,CAI Li,ZHOU Wei.SLC-index: A scalable skip list-based index for cloud data processing[J].Journal of Central South University,2018,25(10):2438-2450. 被引量：2
8罗红英.基于微积分分类数学模型的关联挖掘改进方法[J].现代电子技术,2019,42(8):135-139. 被引量：2
9丁家满,李海滨,邓斌,贾连印,游进国.一种基于Spark的频繁项集快速挖掘算法[J].软件学报,2023,34(5):2446-2464.

同被引文献4

1徐开勇,龚雪容,成茂才.基于改进Apriori算法的审计日志关联规则挖掘[J].计算机应用,2016,36(7):1847-1851. 被引量：49
2谢志明,王鹏.基于MapReduce架构的并行矩阵Apriori算法[J].计算机应用研究,2017,34(2):401-404. 被引量：23
3赵月,任永功,刘洋.基于MapReduce的改进的Apriori算法及其应用研究[J].计算机科学,2017,44(6):250-254. 被引量：10
4闫梦洁,罗军,刘建英,侯传旺.IABS:一个基于Spark的Apriori改进算法[J].计算机应用研究,2017,34(8):2274-2277. 被引量：12

引证文献1

1王永贵,郭昕彤.SparkSql上自适应数据集的高效频繁集挖掘算法[J].计算机工程与应用,2020,56(21):72-78. 被引量：6

二级引证文献6

1李梅,朱明宇.基于蚁群算法的无线通信网络安全漏洞检测方法[J].计算机测量与控制,2022,30(10):51-56. 被引量：5
2段雪莹,王立君.有向复杂网络软件异常交互执行行为挖掘算法[J].计算机仿真,2023,40(1):533-538.
3李昌庆.计算机算法设计及数据结构的离散性研究[J].无线互联科技,2023,20(9):156-158. 被引量：1
4沈芙辉,苏欣.基于对比阈值的大数据流特征量最优挖掘算法[J].计算机仿真,2023,40(11):319-323.
5马薏雯.基于数据挖掘的大学生就业指导资源挖掘方法[J].信息技术,2024,48(2):128-131.
6张洪奇,张艳,张晨,吴勇,张大磊,柳平增.设施智慧农场大数据平台开发与应用[J].山东农业大学学报（自然科学版）,2024,55(3):295-303.

1李秋锦.关于信息检索方法的探讨[J].数码世界,2019,0(4):66-66.
2郑建华,徐龙琴,刘双印,张世龙.基于双压缩的Apriori算法优化设计[J].仲恺农业工程学院学报,2017,30(4):26-31.
3易辉艳.改进的Apriori算法在学生成绩分析中的应用[J].计算机产品与流通,2018,7(7):225-225. 被引量：1
4张玉叶.基于协同过滤的电影推荐系统的设计与实现[J].电脑知识与技术,2019,15(2X):70-73. 被引量：8
5钟育彬,李健标.基于Hash表的改进Apriori算法[J].广州大学学报（自然科学版）,2018,17(6):7-9.
6李晓瑜.数据挖掘技术在高校课程设置中的应用[J].微型电脑应用,2019,35(5):5-7. 被引量：2
7杜媛,张世伟.基于数组和辅助项头表的快速频繁项集挖掘算法[J].中国计量大学学报,2019,30(1):78-84. 被引量：2
8孔繁宇,吕德刚,田芳.基于CATIA逆向模块的点云合成方法研究[J].长春工程学院学报（自然科学版）,2018,19(4):100-102. 被引量：2
9瓮俊昊.基于改进Apriori算法的多源安全日志关联分析[J].现代计算机,2019,25(9):23-26. 被引量：1
10喻金平,刘娟,巫光福,曾宪文.一种改进的协同过滤算法在中小企业服务平台的研究与应用[J].计算机应用与软件,2019,36(4):236-240. 被引量：3

长春理工大学学报（自然科学版）

2019年第2期

浏览历史

内容加载中请稍等...

一种基于倒排索引的频繁项集挖掘方法被引量：1

参考文献4

二级参考文献40

共引文献9

同被引文献4

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于倒排索引的频繁项集挖掘方法 被引量：1

参考文献4

二级参考文献40

共引文献9

同被引文献4

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于倒排索引的频繁项集挖掘方法被引量：1