一种有效的不确定数据概率频繁项集挖掘算法被引量：8

Efficient mining probabilistic frequent itemset in uncertain databases

下载PDF

导出

摘要针对PFIM算法中频繁概率计算方法的局限性,且挖掘时需要多次扫描数据库和生成大量候选集的不足,提出EPFIM(efficient probabilistic frequent itemset mining)算法。新提出的频繁概率计算方法能适应数据流等项集的概率发生变化时的情况;通过不确定数据库存储在概率矩阵中,以及利用项集的有序性和逐步删除无用事物来提高挖掘效率。理论分析和实验结果证明了EPFIM算法的性能更优。 The way to calculate the frequentness probability in PFIM limited its applications, it needed to scan the database for many times and generated a large number of candidate sets. This paper proposed a new algorithm named EPFIM. First, the new method of calculating the frequentness probability made it easier to update frequentness probability of itemset, and could be adapted in more situations. Second, it used uncertain probability matrix to store the database in order to scan database less. In addition, the sequence of items and deleting unwanted transactions gradually improved efficiency of mining. Theoretical analysis andexperimental results show EPFIM performances better.

作者刘立新张晓琳毛伊敏

机构地区内蒙古科技大学信息工程学院中南大学信息科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2012年第3期841-843,共3页 Application Research of Computers

基金国家自然科学基金资助项目(61163015) 教育部"春晖计划"基金资助项目(Z2009-1-01024)

关键词不确定数据可能世界期望支持度概率频繁项集 uncertain databases possible word expected support probabilistic frequent itemset

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16. 被引量：185
2CI-IUI C K, KAO Ben, HUNG E. Mining frequent itemsets from un- certain data [ C ]//Proc of the 11 th Pacific-Asia Conference on Knowl- edge Discovery and Data Mining. Berlin: Springer-Verlag, 2007: 47- 58.
3CHUI C K, KAO Ben. A detrimental approach for mining frequent itemsets from uncertain data [ C ]//Proc of the 12th Pacific-Asia Con- ference on Knowledge Discovery and Data Mining. Berlin: Springer- Verlag, 2008 : 64 - 75.
4LEUNG C K S, CARMICHAEL C L, HAO Bo-yu. Efficient mining of frequent patterns from uncertain data [ C ]//Proc of the 17th IEEE International Conference on Data Mining Workshops. 2007:489-494.
5高聪申德荣于戈.一种基于不确定数据的挖掘频繁集方法.计算机研究与发展,2008,:71-76.
6BERNECKER T, KRIEGEL H P, RENZ M, et al. Probabilistie fre- quent itemset mining in uncertain databases [ C ]//Proc of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York : ACM Press ,2009 : 119-127.
7王爽,杨广明,朱志良.基于不确定数据的频繁项查询算法[J].东北大学学报（自然科学版）,2011,32(3):344-347. 被引量：10
8YI Ke, LI Fei-fei, KOLLIOS, et al. Efficient processing of top-k queries in uncertain databases [ C ]//Proc of the 24th International Conference on Data Engineering. Washington DC : IEEE Computer So- ciety ,2009 : 1406-1408.
9WITTEN I H, FRANK E. Data mining: practical machine tools and techniques[M].北京:机械工业出版社,2006:202-204.
10Han J,Kamber M.数据挖掘概念与技术[M].范明,译.北京:机械工业出版社,2007:32-59.

二级参考文献106

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2谷峪,于戈,张天成.RFID复杂事件处理技术[J].计算机科学与探索,2007,1(3):255-267. 被引量：54
3Deshpande A, Guestrin C, Madden S, Hellerstein J M, Hong W. Model-driven data acquisition in sensor networks// Proceedings of the 30th International Conference on Very Large Data Bases. Toronto, 2004:588-599
4Madhavan J, Cohen S, Xin D, Halevy A, Jeffery S, Ko D, Yu C. Web-scale data integration: You can afford to pay as you go//Proceedings of the 33rd Biennial Conference on Innovative Data Systems Research. Asilomar, 2007:342-350
5Liu Ling. From data privacy to location privacy: Models and algorithms (tutorial)//Proceedings of the 33rd International Conference on Very Large Data bases. Vienna, 2007: 1429- 1430
6Samarati P, Sweeney L. Generalizing data to provide anonymity when disclosing information (abstract)//Proeeedings of the 17th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Seattle, 1998:188
7Cavallo R, Pittarelli M. The theory of probabilistic databases//Proceedings of the 13th International Conference on Very Large Data Bases. Brighton, 1987:71-81
8Barbara D, Garcia-Molina H, Porter D. The management of probabilistic data. IEEE Transactions on Knowledge and Data Engineering, 1992, 4(5): 487-502
9Fuhr N, Rolleke T. A probabilistic relational algebra for the integration of information retrieval and database systems. ACM Transactions on Information Systems, 1997, 15(1): 32-66
10Zimanyi E. Query evaluation in probabilistic databases. Theoretical Computer Science, 1997, 171(1-2): 179-219

共引文献213

1刘正伟,文中领,张海涛.云计算和云数据管理技术[J].计算机研究与发展,2012,49(S1):26-31. 被引量：170
2刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算法[J].计算机研究与发展,2011,48(S3):1-7. 被引量：14
3何明,李薇.基于概率信息抽取模型的Top-k查询[J].计算机研究与发展,2011,48(S3):224-231.
4杜凌霞,李翠平,陈红,张应龙.概率图上的对象相似度计算[J].计算机研究与发展,2011,48(S3):326-333. 被引量：1
5叶杰敏,刘国华,貟慧,石丹妮,吴云龙,费凡.Attribute-or模型下不确定关系的无损分解算法[J].计算机研究与发展,2013,50(S1):117-124. 被引量：1
6于洋,赵志滨,鲍玉斌,于戈.面向属性级不确定数据的U-Topk查询优化算法的研究[J].计算机研究与发展,2013,50(S1):125-132.
7梁俊杰,熊亚军.以固态硬盘为缓存的存储技术研究[J].微电子学与计算机,2015,32(1):40-44. 被引量：2
8林永民,吕震宇,赵爽,朱卫东.基于样本分布与熵的数值型属性离散化[J].计算机工程与应用,2008,44(1):159-161. 被引量：2
9邝祝芳,谭骏珊.KMApriori:一种有效的数据库异常检测方法[J].计算机工程与科学,2008,30(6):18-21. 被引量：4
10化柏林.数据挖掘与知识发现关系探析[J].情报理论与实践,2008,31(4):507-510. 被引量：31

同被引文献84

1刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算法[J].计算机研究与发展,2011,48(S3):1-7. 被引量：14
2谈恒贵,王文杰,李克双.频繁项集挖掘算法综述[J].计算机仿真,2005,22(11):1-4. 被引量：6
3谢洁锐,胡月明,刘才兴,刘兰.无线传感器网络的时间同步技术[J].计算机工程与设计,2007,28(1):76-77. 被引量：9
4高聪申德荣于戈.一种基于不确定数据的挖掘频繁集方法.计算机研究与发展,2008,:71-76.
5Jin Che-Qing, Yi Ke,Chen Lei,Yu Xu,LinXue Min. Slieling Window Top-K Queries on Uncertain Stream. Proceedings of the VLDB Endowment, 2008, 1(1):301-312.
6G.Cormade,M.Garofalakis. Sketching Probabilistic Data Stre- am. Proceeding of the 2007 ACM SIGMOD International Conference on Management of Data. Beijing, 2007:281-292.
7T.S.Jayram,S.kale,E.Vee. Efficient Aggregation Algorithms for Probabilistic Data. Proceeding of the 18th Annual ACM- SIAM Symposium on Discrete Algorithms New-Orleans,2007: 346-355.
8D.Pfoser, C.S.Jensen. Capturing the Uncertainty of Moving- Object Representation. In SSD,1999:111-132.
9G.Trajcevski, O.Wolfson. Managing Uncertain Trajectories of Moving Objects with DOMINO. In ICEIS,2002:217-224.
10G.Trajcerski. Probabilistic Range Queries in Moving Objects Databases with Uncertainty. In MobiDE,2003:39-45.

引证文献8

1魏艳艳.空间关联规则挖掘技术的应用分析[J].自动化与仪器仪表,2016(2):50-51. 被引量：6
2丘晓平,黄小兵.非确定性数据处理技术发展现状与挑战[J].现代计算机,2012,18(18):9-14.
3陈超泉,黄佳欢,江云辉.压缩UF-tree挖掘不确定数据频繁项[J].计算机应用研究,2014,31(3):716-719. 被引量：1
4张炘,王会勇.频域徙动运动参数闭频繁项集挖掘算法[J].科技通报,2014,30(10):190-192.
5王云良,王敏其.基于时频分析的高速运动点目标运动参量挖掘算法[J].现代电子技术,2015,38(20):31-34. 被引量：1
6唐向红,杨全纬,郑阳.挖掘不确定数据的最大频繁项集[J].华中科技大学学报（自然科学版）,2015,43(9):29-34. 被引量：2
7刘卫明,蒯海龙,陈志刚,毛伊敏.基于有序树的不确定数据最大频繁项挖掘算法[J].计算机工程与应用,2015,51(24):145-149. 被引量：7
8苏韵捷,徐传凯,王金泽.基于深度学习的不确定数据频繁项集挖掘系统[J].电子设计工程,2020,28(4):33-36. 被引量：3

二级引证文献20

1刘卫明,蒯海龙,陈志刚,毛伊敏.基于有序树的不确定数据最大频繁项挖掘算法[J].计算机工程与应用,2015,51(24):145-149. 被引量：7
2孙鹤旭,孙泽贤,林涛.基于云计算的最大频繁项集挖掘算法[J].中南民族大学学报（自然科学版）,2016,35(3):102-106. 被引量：2
3栾锦骥.基于数据挖掘技术的图书馆信息管理系统开发[J].自动化与仪器仪表,2016(9):158-159. 被引量：8
4刘晓丹.分布式环境中保护隐私数据挖掘算法研究[J].自动化与仪器仪表,2016(10):155-156. 被引量：2
5张春生,图雅,李艳.基于精简二元矩阵的蒙医方剂关联规则挖掘[J].世界科学技术-中医药现代化,2017,19(2):365-369. 被引量：3
6陈凤娟.基于概率模型的概率频繁项集挖掘方法[J].安阳师范学院学报,2017(2):57-60.
7朱付保,白庆春,汤萌萌,朱颢东.基于MapReduce的数据流频繁项集挖掘算法[J].华中师范大学学报（自然科学版）,2017,51(4):429-434. 被引量：5
8陈凤娟.概率代表频繁模式挖掘[J].牡丹江师范学院学报（自然科学版）,2017,43(2):19-22.
9韩天鹏,王峰,王浩.基于FP-Growth算法构造批量增量的FP-tree[J].嘉应学院学报,2017,35(8):21-25. 被引量：3
10任进军,陈军.基于层次结构的多分类算法研究[J].贵州大学学报（自然科学版）,2017,34(4):59-63. 被引量：2

1陈凤娟.不确定数据的项集频繁概率近似算法[J].许昌学院学报,2016,35(2):46-49.
2陈凤娟.可能世界语义下的概率频繁项集挖掘[J].新余学院学报,2016,21(1):17-19.
3陈凤娟.概率数据集的垂直数据格式挖掘[J].安阳师范学院学报,2016(2):41-43. 被引量：1
4陈凤娟.基于频繁概率的不确定数据挖掘[J].沧州师范学院学报,2016,32(1):53-55.
5刘浩然,刘方爱,李旭,王记伟.有效的不确定数据概率频繁项集挖掘算法[J].计算机应用,2015,35(6):1757-1761. 被引量：5
6Yu-Geng Song,Hui-Min Cui,Xiao-Bing Feng.Parallel Incremental Frequent Itemset Mining for Large Data[J].Journal of Computer Science & Technology,2017,32(2):368-385. 被引量：5
7郑斌.空间数据库中有效数据频繁项检测仿真研究[J].计算机仿真,2017,34(4):444-447. 被引量：3
8唐向红,杨全纬,郑阳.挖掘不确定数据的最大频繁项集[J].华中科技大学学报（自然科学版）,2015,43(9):29-34. 被引量：2
9李建文,王昊,张宝峰,刘斌.PFI喷油器动态响应特性测试系统的研究[J].电子世界,2017,0(5):77-79.
10张诤,王惠文.一种高效的并行频繁集挖掘算法[J].计算机工程,2008,34(11):55-57. 被引量：7

计算机应用研究

2012年第3期

浏览历史

内容加载中请稍等...

一种有效的不确定数据概率频繁项集挖掘算法被引量：8

参考文献10

二级参考文献106

共引文献213

同被引文献84

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

一种有效的不确定数据概率频繁项集挖掘算法 被引量：8

参考文献10

二级参考文献106

共引文献213

同被引文献84

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

一种有效的不确定数据概率频繁项集挖掘算法被引量：8