基于Spark的海量数据冗余检测方法被引量：1

An Redundant Date Detecting Methods for Massive Data Based on Spark

下载PDF

导出

摘要单机计算资源难以满足海量数据的冗余检测,提出基于Spark的海量数据冗余检测方法。先基于Simhash算法实现待测数据与对应指纹间的映射(二进制串),再设计指纹检索树并提出基于指纹检索树的数据冗余检测算法ROFA;最后,设计了基于Spark和ROFA的海量数据的冗余检测策略,实现了海量数据的冗余检测;利用UCI提供的数据进行实例分析,证明了该方法的有效性。 Due to the single computing resources have been unable to effectively complete the redundant detecting for massive data, a massive data redundancy detection method based on Spark is proposed. Firstly, use Simhash algorithm to convert data tuples into corresponding binary strings(fingerprints). Secondly, a fingerprint index tree is designed, and a Data redundancy detection algorithm ROFA based on the fingerprint index tree is proposed;finally, a redundant detection strategy for massive data based on Spark and ROFA is designed, which can detect redundant for massive data, and a comparative experimental analysis about data from UCI is taken to shows that the presented method is efficient and accurate.

作者余通宾冬梅黎新杨春燕凌颖

机构地区广西电网有限责任公司电力科学研究院

出处《科学技术创新》 2020年第16期91-93,共3页 Scientific and Technological Innovation

基金广西电网公司科技项目资助(项目编号:GXKJXM20180828,项目名称:互联网资产排查及安全感知平台研究与应用)~~。

关键词海量数据冗余检测 Simhash SPARK Massive data redundant detection Simhash Spark

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1宋人杰,余通,陈宇红,陈宇阳,夏滨.基于MapReduce模型的大数据相似重复记录检测算法[J].上海交通大学学报,2018,52(2):214-221. 被引量：41

二级参考文献9

1敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
2崔霞,施光林,沈伟.基于分组数据处理神经网络气动人工肌肉迟滞特性[J].上海交通大学学报,2012,46(6):931-935. 被引量：7
3陈明.桥梁预警系统的数据预处理[J].上海交通大学学报,2012,46(10):1680-1685. 被引量：1
4曲朝阳,朱莉,张士林.基于Hadoop的广域测量系统数据处理[J].电力系统自动化,2013,37(4):92-97. 被引量：56
5李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：260
6池子文,张丰,杜震洪,刘仁义.云环境下基于预分片的遥感数据并行重采样方法[J].上海交通大学学报,2014,48(11):1627-1632. 被引量：4
7李建中,王宏志,高宏.大数据可用性的研究进展[J].软件学报,2016,27(7):1605-1625. 被引量：65
8曲朝阳,孙立擎,许劭庆,蔺树全,尹相爱.基于B+树的电力大数据分布式索引[J].东北电力大学学报,2016,36(5):80-85. 被引量：6
9曲朝阳,陈帅,杨帆,朱莉.基于云计算技术的电力大数据预处理属性约简方法[J].电力系统自动化,2014,38(8):67-71. 被引量：94

共引文献40

1李冉.基于语义图模型的跨语言网络信息检索方法研究[J].周口师范学院学报,2020(2):100-103. 被引量：3
2刘刚.断下线故障的原因及排除方法：（以GB1—1型,GC1—2型为例）[J].中外缝制设备,2000(2):42-43.
3陈亮,杜璐,胡康.基于分块和滑窗技术的相似重复记录检测算法研究[J].计算机应用与软件,2019,36(4):262-267. 被引量：7
4李芳菊.基于Hadoop的网络行为大数据安全实体识别系统设计[J].现代电子技术,2019,42(17):75-79. 被引量：15
5胡小琴.基于梯度提升回归树的大数据集离群点挖掘模型构建[J].佳木斯大学学报（自然科学版）,2019,37(5):743-747.
6龙文麟.基于大数据的环境监测与治理对策探究[J].中国资源综合利用,2019,37(10):156-158. 被引量：5
7王艳华.档案数字化保密存储格式控制方法分析[J].太原师范学院学报（自然科学版）,2019,18(4):59-64.
8吕国俊,曹建军,郑奇斌,常宸,翁年凤,彭琮.基于多目标蚁群优化的单类支持向量机相似重复记录检测[J].兵工学报,2020,41(2):324-331. 被引量：12
9李杰,邹慧兰.大数据交叉映射融合的逆向云算法仿真[J].计算机仿真,2020,37(2):284-288. 被引量：2
10张航,盛志伟,张仕斌,杨敏.Simhash算法在文本去重中的应用[J].计算机工程与应用,2020,56(11):246-251. 被引量：7

同被引文献11

1盛鹏飞.解析电力物联网中的分层聚合技术[J].低碳世界,2019,9(10):91-92. 被引量：1
2许春杰,吴蒙,杨立君.一种基于分层聚合的分布式异常数据检测方案[J].计算机工程,2020,46(4):213-219. 被引量：20
3谢娜.网络信息资源的冗余数据检测算法设计[J].微型电脑应用,2020,36(7):38-41. 被引量：3
4阮嘉琨,蔡延光,蔡颢,张丽.基于灰狼算法的Simhash冗余数据检测算法[J].东莞理工学院学报,2020,27(5):38-43. 被引量：4
5肖峰.双冗余网络高维离散数据特征检测方法研究[J].宁夏师范学院学报,2021,42(1):67-72. 被引量：1
6李志,闫明胜,韩宝宏,魏慕恒,朱慧敏,李奇钟.基于冗余数据分析的船舶主机控制系统传感器偶发性故障检测[J].新型工业化,2021,11(2):26-29. 被引量：2
7高德平.考虑样本数据重复性的通信信息冗余数据检测算法[J].微型电脑应用,2021,37(6):205-208. 被引量：2
8杨保清.全冗余负荷平衡数据采集系统的开发与应用[J].中国石油和化工标准与质量,2021,41(10):150-151. 被引量：1
9杜英魁,刘鑫,姚俊豪,庞博文,孔存良,原忠虎.一种面向实时数据冗余处理的参数化SES模型设计[J].现代电子技术,2021,44(20):88-92. 被引量：5
10邹彤彤,杨涛,周勇,王仲平,余来斌,王东凯,肖荣,出晓娟.基于KNN算法的隧道地表变形监测数据异常检测分析[J].科学技术创新,2021(28):95-97. 被引量：5

引证文献1

1张玉良,王艳兵.基于分层聚合的通信信息冗余数据检测方法[J].上海电机学院学报,2022,25(3):182-186.

1胡营营,赵逢禹.Web应用中冗余代码检测方法研究[J].计算机技术与发展,2020,30(3):30-35.
2冯艳.农用地膜与相关增塑剂检测的策略研究[J].中国科技投资,2019,0(36):259-259.

科学技术创新

2020年第16期

浏览历史

内容加载中请稍等...

基于Spark的海量数据冗余检测方法被引量：1

参考文献1

二级参考文献9

共引文献40

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Spark的海量数据冗余检测方法 被引量：1

参考文献1

二级参考文献9

共引文献40

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Spark的海量数据冗余检测方法被引量：1