优先关联的Web日志数据逼真生成算法被引量：2

Simulate Generating Web Log Algorithm Using Fields' Priority Relevance

下载PDF

导出

摘要字段关联的构建方法是Web数据逼真生成中的困难问题.提出一种基于MIC的字段优先关联的Web数据逼真生成算法.该算法与现有的方法完全不同:首先,提取真实Web日志数据集中相应字段间的MIC系数;然后,结合字段的重尾特性,采用SE分布对字段的重尾性进行建模;最后,建立字段关联模型,模拟出真实数据集中的字段间依赖性,从而逼真生成目标数据集.实验表明,生成的数据集能够保持合理的字段间的均衡性以及节点间的相似性. The construction method of field relevance is a difficult problem in the Web data generation. A new algorithm for fields＇ priority relevance based on maximal information coefficient is proposed. The algorithm is completely different from the existing method. Firstly, the maximal information coefficient between the appropriate fields needs to be extracted from real Web log data. Then, combined with the field of heavy tailed characteristics, the field is modeled by stretched exponential distribution. Finally, real data＇s field dependence is simulated by the fields＇ relevance model, so as to generate a realistic target data set. The experiments show that the generated data sets can maintain a reasonable balance between the fields and the similarity between the nodes.

作者丘志鹏肖如良张锐 QIU Zhi-Peng XIAO Ru-Liang ZHANG Rui(Faculty of Software, Fujian Normal University, Fuzhou 350117, China Fujian Provincial Engineering Research Center of Public Service Big Data Analysis and Application, Fuzhou 350117, China)

机构地区福建师范大学软件学院福建省公共服务大数据挖掘与应用工程研究中心

出处《计算机系统应用》 2017年第3期126-133,共8页 Computer Systems & Applications

基金福建省科技计划重大项目(2016H6007)

关键词字段关联数据生成 MIC系数重尾 fields＇ relevance data generation maximal information coefficient heavy tail

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1Pushpalatha Sarla,Mallikarjuna Reddy Doodipala,Manohar Dingari.Self Similarity Analysis of Web Users Arrival Pattern at Selected Web Centers[J].American Journal of Computational Mathematics,2016,6(1):17-22. 被引量：3

共引文献2

1彭行雄,肖如良.基于用户兴趣迁移的Web日志仿真生成算法[J].计算机应用,2016,36(12):3476-3480. 被引量：2
2彭行雄,肖如良.基于稳态过程的多重分形Web日志仿真生成算法[J].计算机应用,2017,37(2):587-592. 被引量：2

同被引文献10

1韩筱璞,汪秉宏,周涛.人类行为动力学研究[J].复杂系统与复杂性科学,2010,7(2):132-144. 被引量：31
2樊超,郭进利,韩筱璞,汪秉宏.人类行为动力学研究综述[J].复杂系统与复杂性科学,2011,8(2):1-17. 被引量：38
3李景富,杨志强.一种面向不均衡网络流的综合抽样方法[J].火力与指挥控制,2015,40(12):74-79. 被引量：2
4詹剑锋,高婉铃,王磊,李经伟,魏凯,罗纯杰,韩锐,田昕晖,姜春宇.BigDataBench:开源的大数据系统评测基准[J].计算机学报,2016,39(1):196-211. 被引量：34
5管磊,胡光俊,王专.基于大数据的网络安全态势感知技术研究[J].信息网络安全,2016(9):45-50. 被引量：93
6潘文.我国大数据发展现状与趋势[J].领导科学论坛,2017,0(4):28-44. 被引量：12
7王坤峰,左旺孟,谭营,秦涛,李力,王飞跃.生成式对抗网络:从生成数据到创造智能[J].自动化学报,2018,44(5):769-774. 被引量：37
8赵会群,刘金銮.基于贝叶斯网络的复杂事件大数据处理系统测试数据生成方法研究[J].计算机应用研究,2018,35(8):2389-2392. 被引量：8
9徐鹏,刘嘉勇,林波,孙慧颖,雷斌.基于循环神经网络的模糊测试用例生成[J].计算机应用研究,2019,36(9):2679-2685. 被引量：6
10樊冬梅.假设检验中的P值[J].郑州经济管理干部学院学报,2002,17(4):70-71. 被引量：10

引证文献2

1张锐,肖如良,倪友聪,杜欣.逼真生成表格式数据的非时间属性关联模型[J].计算机应用,2017,37(9):2684-2688.
2李博嘉,张仰森,陈若愚.一种可指定分布的海量数据生成方法[J].计算机科学,2019,46(8):56-63.

1夏野,易成刚.科技计划项目数据库资源的整合与应用[J].软件导刊,2008,7(11):135-137. 被引量：5
2陶晓峰.基于规约编码和缓存的智能用电数据处理技术[J].江苏电机工程,2012,31(1):56-57.
3沙薇,盛业华,杨林.基于GIS的高速公路沿线设施管理信息查询系统的设计与实现[J].计算机应用与软件,2009,26(1):112-114. 被引量：6

计算机系统应用

2017年第3期

浏览历史

内容加载中请稍等...

优先关联的Web日志数据逼真生成算法被引量：2

参考文献1

共引文献2

同被引文献10

引证文献2

相关作者

相关机构

相关主题

浏览历史

优先关联的Web日志数据逼真生成算法 被引量：2

参考文献1

共引文献2

同被引文献10

引证文献2

相关作者

相关机构

相关主题

浏览历史

优先关联的Web日志数据逼真生成算法被引量：2