基于统计显著性检验的高效用项集挖掘算法

Mining high utility itemsets based on statistical significance testing

下载PDF

导出

摘要针对传统高效用项集挖掘算法在具有不同类型标签事务中报告假阳性高效用项集的问题,提出两个基于统计显著性检验的高效用项集挖掘算法——FHUI和PHUI算法。这两个算法首先找到所有待检验高效用项集并依据项集长度进行分组;然后,FHUI算法根据项集自身的频率分布生成零分布,PHUI算法根据事务内置换策略或事务间置换策略构造置换事务集合来生成零分布。最后,FHUI和PHUI算法从零分布中计算出p值并运用错误发现率剔除假阳性高效用项集。基准事务集合实验结果显示FHUI和PHUI算法能够剔除大量的假阳性高效用项集,在后续分类任务中取得了更高的正确率;仿真事务集合实验结果显示FHUI和PHUI算法报告的项集中假阳性高效用项集数量占比低于4.8%且平均效用高于39000。实验结果证明,在具有不同类型的标签事务中,FHUI和PHUI算法报告的统计显著高效用项集可靠性和实用性更强。 Aiming at the problem of traditional high utility itemset mining algorithms reporting false positive high utility itemsets in transactions with class labels,this paper proposed two high utility itemset mining algorithms called FHUI and PHUI.The FHUI and PHUI firstly found all the candidates and grouped them by length.Then,the FHUI established null distributions with the frequency distributions,while the PHUI established null distributions by the permutation strategy within or between transactions.Finally,the FHUI and PHUI calculated the p values from the null distributions and exploited the false discovery rate to eliminate the false positive high utility itemsets.The experiments on the benchmark data sets show that the FHUI and PHUI can eliminate a large number of false positive itemsets,which allows them to achieve higher accuracy rates in the classification tasks.The experiments on synthetic data sets reveal that the proportions of false positive itemsets reported by FHUI and PHUI are lower than 4.8%and the average utility values are higher than 39000.Experimental results prove that the statistically significant high utility itemsets reported by the FHUI and PHUI are more reliable and practical in transactions with class labels.

作者吴军魏丹丹欧阳艾嘉王亚 Wu Jun;Wei Dandan;Ouyang Aijia;Wang Ya(School of Information Engineering,Zunyi Normal University,Zunyi Guizhou 563000,China)

机构地区遵义师范学院信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2024年第10期2970-2977,共8页 Application Research of Computers

基金国家自然科学基金资助项目(62066049) 贵州省教育厅高等学校青年资助项目(黔教技[2022]313,黔教合KY[2022]015) 贵州省科技厅科技支撑计划资助项目(黔科合支撑[2023]257) 遵义市科技合作资助项目(遵市科合HZ字(2022)123)。

关键词数据挖掘高效用项集挖掘统计显著性检验 Fisher检验置换检验 data mining high utility itemset mining statistical significance testing Fisher testing permutation testing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1张春砚,韩萌,孙蕊,杜诗语,申明尧.高效用模式挖掘关键技术综述[J].计算机应用研究,2021,38(2):330-340. 被引量：5
2单芝慧,韩萌,韩强.动态数据上的高效用模式挖掘综述[J].计算机应用,2022,42(1):94-108. 被引量：5
3孙蕊,韩萌,张春砚,申明尧,杜诗语.精简高效用模式挖掘综述[J].计算机应用研究,2021,38(4):975-981. 被引量：3

二级参考文献14

1王乐,冯林,王水.不产生候选项集的TOP-K高效用模式挖掘算法[J].计算机研究与发展,2015,52(2):445-455. 被引量：9
2慕欢欢,柴玉梅,王黎明.面向数据流的一个高效用项集挖掘算法[J].计算机应用与软件,2015,32(4):283-287. 被引量：4
3王少鹏,闻英友,赵宏.滑动窗口下数据流完全加权最大频繁项集挖掘[J].东北大学学报（自然科学版）,2016,37(7):931-936. 被引量：2
4吴倩,王林平,罗相洲,崔建群.动态数据库中增量Top-k高效用模式挖掘算法[J].计算机应用研究,2017,34(5):1401-1405. 被引量：6
5吕存伟,黄德才,陆亿红.含负项的高效用序列模式挖掘算法[J].小型微型计算机系统,2017,38(8):1724-1729. 被引量：4
6谢志轩,李玉强.一种改进的流数据上的高效用模式挖掘算法[J].小型微型计算机系统,2017,38(9):2080-2085. 被引量：3
7吴倩,王林平,罗相洲,崔建群,王海.基于MapReduce的top-k高效用模式挖掘算法[J].计算机应用研究,2017,34(10):2897-2900. 被引量：7
8张全贵,曹阳,李志强.一种频率约束的高效用模式挖掘算法[J].计算机应用与软件,2018,35(11):266-271. 被引量：1
9Thu-Lan DAM,Kenli LI,Philippe FOURNIER-VIGER,Quang-Huy DUONG.CLS-Miner: efficient and effective closed high-utility itemset mining[J].Frontiers of Computer Science,2019,13(2):357-381. 被引量：10
10赵林柳,吕鑫,陶飞飞.基于Top-k的高效用模式挖掘算法[J].计算机工程,2019,45(5):169-174. 被引量：4

共引文献8

1钟新成,李慧芳.一种高效用模式挖掘算法[J].山西大同大学学报（自然科学版）,2022,38(2):21-23.
2李慕航,韩萌,陈志强,武红鑫,张喜龙.面向复杂高效用模式的挖掘算法综述[J].广西师范大学学报（自然科学版）,2022,40(3):13-30. 被引量：1
3周立波,唐晓杰,汪从敏,夏雯,储源.基于状态监测的无尘作业车间设备检修方法研究[J].自动化与仪器仪表,2022(10):129-132.
4付嘉豪,杨嘉怡,李爱国.面向安防系统的高效用语义轨迹模式挖掘[J].计算机工程,2023,49(6):62-70.
5高智慧,韩萌,刘淑娟,李昂,穆栋梁.基于智能优化算法的高效用项集挖掘方法综述[J].计算机应用,2023,43(6):1676-1686. 被引量：1
6单芝慧,韩萌,韩强.增量数据上的闭合定量高效用项集挖掘算法[J].计算机应用,2023,43(7):2049-2056. 被引量：1
7高智慧,韩萌,李昂,刘淑娟,穆栋梁.HHUIM:一种新的启发式高效用项集挖掘方法[J].计算机应用研究,2024,41(1):94-101.
8杨克帅,武优西,耿萌,刘靖宇,李艳.一次性条件下top-k高平均效用序列模式挖掘算法[J].计算机应用,2024,44(2):477-484.

1杨洁,谢小燕,冯宗选,王瑜.2023年广东省临床病理科住院医师规范化培训结业实践能力考核成绩分析[J].中国毕业后医学教育,2024,8(5):321-324.
2甘小娟.健美操综合训练模式与运动表现提升研究[J].拳击与格斗,2024(17):31-33.
3韩辉,慕建君,焦晓鹏,赵展展.纠单个相邻对换错误置换码构造与编译码方法[J].西安电子科技大学学报,2023,50(3):105-111.
4李倩,王绪,黄阔.基于人工智能的智能网联汽车自动驾驶系统性能优化研究[J].汽车测试报告,2024(12):44-46.
5陈正威,林存鑫,刘月季,刘丹,荣良群,刘海艳,魏秀娥,肖利杰.前庭性偏头痛患者顶叶岛盖2功能连接异常的静息态fMRI研究[J].中华耳鼻咽喉头颈外科杂志,2024,59(8):812-819.
6马奎星.普通高中开设舞龙选项课的实践研究[J].体育视野,2024(12):58-60.
7王燕,赵魁,朱紫琳,黎艺琳,邱士军.阿尔茨海默病患者大脑形态学及结构协变网络的改变[J].磁共振成像,2024,15(8):52-58.
8于秋霜,李凌勖,陶怡娜,张龙强,胡俊锋,汪华学.免疫细胞与脓毒症的因果关联:一项基于孟德尔随机化方法的研究[J].中华危重病急救医学,2024,36(8):821-828.
9余娜,张建玲,田丰,赵卉,白银风.包头市土默特右旗“六位一体”盐碱地改良集成技术模式应用效果分析[J].数字农业与智能农机,2024(9):63-66.

计算机应用研究

2024年第10期

浏览历史

内容加载中请稍等...

基于统计显著性检验的高效用项集挖掘算法

参考文献3

二级参考文献14

共引文献8

相关作者

相关机构

相关主题

浏览历史