面向大数据的图模式挖掘概率算法被引量：3

Graph pattern mining probability algorithm for big data

下载PDF

导出

摘要在当今大数据时代,MapReduce等大数据处理框架处理数据能力有限,其在处理有关图的数据时常常显得缓慢低效,典型如3-clique计数问题,故需要探究一种高效的算法处理这类clique计数问题。由于在前人文献中对3-clique计数问题已有深入探讨,故针对该问题的扩展版本(4-clique计数问题)进行探究。在一个启发式的想法下提出了基于邻边采样的概率采样算法,利用切诺夫不等式证明该算法在近似条件下只需要一定数量的采样器作为相对误差的性能保证。通过实验评估对比发现,相对于传统精确算法,概率采样算法虽然在结果上损失了少量的精度,但在算法运行时间和空间占用上具有巨大的优势。最后得出其在实际应用中具有巨大实践价值的结论。 In today’s big data era,big data processing frameworks such as MapReduce often appear slow and inefficient when processing data,specially related to graphs.Therefore,it is necessary to explore an efficient algorithm to handle this type of clique counting problem.Since the predecessor literatures have thoroughly explored the 3-clique counting,the extended version of the problem(the 4-clique counting problem)improves its position gradually.Under the guidance of a heuristic idea,this paper proposed a probability sampling algorithm based on neighboring edge sampling to solve the extended problem.With the usage of Chernoff inequality,the algorithm only needed a certain number of samplers as the performance guarantee of relative error under the approximate condition.Later,the experimental evaluation and comparison shows that the probability sampling algorithm loses a small amount of precision compared with the traditional precision algorithm,but it has great advantages in algorithm running time and space occupation.Finally,it comes to the conclusion that it has great practical value in practical applications.

作者姜丽丽李叶飞豆龙龙陈智麒钱柱中 Jiang Lili;Li Yefei;Dou Longlong;Chen Zhiqi;Qian Zhuzhong(Jiangsu Frontier Electric Technology Co.Ltd.,Nanjing 210000,China;Dept.of Computer Science&Technology,Nanjing University,Nanjing 210023,China)

机构地区江苏方天电力科技有限公司南京大学计算机科学与技术系

出处《计算机应用研究》 CSCD 北大核心 2020年第12期3545-3551,共7页 Application Research of Computers

基金国家自然科学基金面上项目(61872175) 江苏省自然科学基金面上项目(BK20181252)。

关键词 4-clique计数问题概率化算法图模式挖掘大数据处理近似算法 4-clique counting problem probability algorithm graph pattern mining big data processing approximation algorithm

分类号 TP316.4 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1于静,刘燕兵,张宇,刘梦雅,谭建龙,郭莉.大规模图数据匹配技术综述[J].计算机研究与发展,2015,52(2):391-409. 被引量：36
2陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：344
3张珩,张立波,武延军.基于Multi-GPU平台的大规模图数据处理[J].计算机研究与发展,2018,55(2):273-288. 被引量：7
4于戈,谷峪,鲍玉斌,王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1753-1767. 被引量：98
5潘云鹤,王金龙,徐从富.数据流频繁模式挖掘研究进展[J].自动化学报,2006,32(4):594-602. 被引量：34
6崔景洋.图数据挖掘研究[J].太原师范学院学报（自然科学版）,2018,17(1):38-40. 被引量：3

二级参考文献147

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2Amazon SimpleDB. http://aws, amazon, com/simpledb/, 2011-8-10.
3Connor Alexander G, Chrysanthis Panos K, Labrinidis Alexandros. Key key-value stores for efficiently processing graph data in the cloud//Proceedings of the GDM. Hannover, Germany, 2011:88-93.
4Lordanov Borislav. HyperGraphDB: A generalized graph database//Proceedings of the IWGD. JiuZhai Valley, China, 2010:25-36.
5Eifrem Emil. NOSQL: Scaling to size and scaling to complexity, http://blogs, neotechnology, com/emil/2009/11/ nosql-scaling tosize-and-scaling-to-complexity, html, 2009- 1-15.
6Wu Sai, Jiang Da-Wei, Ooi Beng Chin et al. Efficient B-tree based indexing for cloud data proeessing//Proeeedings of the VLDB. Singapore, 2010: 1207-1218.
7Wang Jin-Bao, Wu Sai, Gao Hong et al. Indexing multi dimensional data in a cloud system//Proceedings of the SIGMOD. Indianapolis, Indiana, USA, 2010: 591-602.
8Tsatsanifos George, Sacharidis Dimitris, Sellis Timos et al. MIDAS: Multi-attribute indexing for distributed architecture systems//Proceedings of the SSTD. Minneapolis, MN, USA, 2011:168-185.
9Aguilera M K, Golab W, Shah M A. A practical scalable distributed B-tree//Proceedings of the VLDB. Auckland, New Zealand, 2008: 598-609.
10Zhang Xiang-Yu, Ai Jing, Wang Zhong-Yuan, Lu Jia-Heng et al. An efficient multi-dimensional index for cloud data management//Proceedings of the CloudDB. Hong Kong, China, 2009:17-24.

共引文献512

1庞景安.大数据时代:思维变革、产业转型与数据科学兴起[J].情报学进展,2016(1):186-218.
2陈豫,曾铮,王三梅.科技信息工作中大数据技术的应用和发展[J].情报学进展,2014(1):81-122. 被引量：2
3秦望龙,刘冠邦,钱海力.美军大数据发展研究及启示[J].信息化研究,2022,48(1):1-5. 被引量：1
4陈培培,张玉周.大数据时代抽样调查课程的教学改革与实践[J].人文之友,2019,0(21):47-48.
5谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
6刘杰.大数据时代下的公共管理创新[J].区域治理,2018,0(2):115-115.
7张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
8王金龙.数据挖掘研究进展[J].青岛理工大学学报,2007,28(4):80-82. 被引量：11
9程舒通,徐从富,但红卫.频繁模式聚类算法改进研究[J].计算机工程与应用,2008,44(1):162-164. 被引量：1
10庄波,刘希玉.数据流中频繁模式挖掘算法研究及进展[J].福建电脑,2008,24(3):8-8.

同被引文献30

1张诚,夏寒,道理,夏天.我国居民健康档案标准规范应用现状调查和分析[J].中国卫生信息管理杂志,2015,12(3):290-292. 被引量：13
2陈林利,徐东丽,张甦敏,王巍炜,方红,严玉洁,何丹丹,张莉萍,詹隆文.基于居民电子健康档案的公共卫生信息化应用研究[J].中国卫生信息管理杂志,2018,15(1):101-104. 被引量：14
3李政廉,吉立新,黄瑞阳,兰巨龙.面向大规模网络的快速重叠社团挖掘算法[J].电子学报,2019,47(2):257-265. 被引量：3
4吴磊,程良伦,王涛.基于事务映射区间求交的高效频繁模式挖掘算法[J].计算机应用研究,2019,36(4):1031-1035. 被引量：7
5胡小强,吴翾,闻立杰,王建民.基于Spark的并行分布式过程挖掘算法[J].计算机集成制造系统,2019,25(4):791-797. 被引量：7
6王倩,胡松旺,郭嘉伟,任家东,赵小林.有向复杂网络结构熵的软件动态执行关键节点挖掘算法[J].小型微型计算机系统,2019,40(4):884-889. 被引量：6
7赵宇海,印莹,李源,汪嗣尧,王国仁.一种面向大规模序列数据的交互特征并行挖掘算法[J].计算机研究与发展,2019,56(5):992-1006. 被引量：8
8赵林柳,吕鑫,陶飞飞.基于Top-k的高效用模式挖掘算法[J].计算机工程,2019,45(5):169-174. 被引量：4
9殷茗,王文杰,张煊宇,姜继娇.一种基于邻接表的最大频繁项集挖掘算法[J].电子与信息学报,2019,41(8):2009-2016. 被引量：15
10郑建华,刘双印,贺超波,符志强.基于混合采样策略的改进随机森林不平衡数据分类算法[J].重庆理工大学学报（自然科学）,2019,33(7):113-123. 被引量：12

引证文献3

1杨琳,徐慧英,马文龙.基于边界条件GAN的不平衡大数据模糊分类[J].西南师范大学学报（自然科学版）,2021,46(7):97-102. 被引量：4
2段雪莹,王立君.有向复杂网络软件异常交互执行行为挖掘算法[J].计算机仿真,2023,40(1):533-538.
3毛丹,夏天,张诚,林维晓,孙靖.基于疾控大数据的可视化分析与应用[J].中国卫生信息管理杂志,2023,20(1):122-126. 被引量：2

二级引证文献6

1周玉,孙红玉,房倩,夏浩.不平衡数据集分类方法研究综述[J].计算机应用研究,2022,39(6):1615-1621. 被引量：20
2黄国铭,彭洁,周康,黄天明.大数据分析在预防医学中的应用研究[J].信息与电脑,2023,35(18):14-16.
3陈晓姗,张国华.基于朴素贝叶斯的大数据模糊随机挖掘仿真[J].计算机仿真,2023,40(11):428-432. 被引量：1
4吴晓丹,王博威.基于朴素贝叶斯的大数据模糊随机挖掘仿真[J].计算机仿真,2023,40(11):501-505.
5谢晓丽,姚兴平.基于PSO-DBN结构的不平衡大数据分类研究[J].长沙大学学报,2024,38(2):15-22.
6华悦.一种基于大数据的医院风险防控信息平台的应用[J].中国科技纵横,2024(10):66-69.

1许莲.没有比较,就没有真知——苏教版三年级下册《认识几分之一》教学探究[J].数学教学通讯,2020(19):30-31.
2李艳青,张重华,臧朝平,顾思远.中药熏蒸联合“逐渊汤”治疗慢性鼻窦炎的临床疗效研究[J].临床耳鼻咽喉头颈外科杂志,2020,34(1):5-9. 被引量：30
3王璟.川芎茶调散加减治疗急性分泌性中耳炎风寒袭耳证疗效观察[J].山西中医,2020,36(7):10-11. 被引量：3
4李玲,印莹,赵宇海,王国仁,董祥军.基于解耦概要图的大规模图数据高效分布式挖掘算法[J].计算机学报,2020,43(7):1183-1198. 被引量：5
5刘晓璐,王志栋,单广荣.传统与流数据聚类算法[J].现代计算机,2020,26(29):25-28. 被引量：2
6王森.贝叶斯算法对变压器呼吸器的技术改进分析[J].自动化应用,2020(9):56-58.

计算机应用研究

2020年第12期

浏览历史

内容加载中请稍等...

面向大数据的图模式挖掘概率算法被引量：3

参考文献6

二级参考文献147

共引文献512

同被引文献30

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

面向大数据的图模式挖掘概率算法 被引量：3

参考文献6

二级参考文献147

共引文献512

同被引文献30

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

面向大数据的图模式挖掘概率算法被引量：3