基于Simhash的大数据去重改进算法被引量：2

A Big Data Deduplication Algorithm Based on Simhash

下载PDF

导出

摘要数据去重是大数据预处理过程中最主要的一个步骤。为了提升大数据去重的效率,以及优化其在较差情况下的表现,本文以中文微博的原始数据为基础,在传统的Simhash方法的基础上,改进计算相似度的公式,将文本重复率纳入考虑,并在检索步骤中采用桶排序的思想,进行多次多级的线程分配以提高效率。实验结果表明,改进后的算法可以显著提升传统算法的效率和准确率。 Data deduplication is a main step in big data preprocess. To improve efficiency in deduplication and optimize performance in terrible condition of classic algorithm, this paper uses Chinese text data of mieroblog and modifies formula of calculating similarity based on classic Simhash algorithm. Duplication rate is considered in the advanced formula, besides, this paper draws on the experience of bucket sorting, distributes threads for several times and levels to improve efficiency. The result of experiment shows that advanced algorithm can reduce running time and improve accuracy compared with classic algorithm.

作者周春晖

机构地区上海交通大学软件学院

出处《计算机与现代化》 2017年第7期38-41,共4页 Computer and Modernization

关键词微博大数据去重 Simhash 多线程 mieroblog big data deduplieation Simhash multi-thread

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1周玉坤,冯丹,夏文,付忞.面向数据去重的基于二次哈希的收敛加密策略[J].计算机工程与科学,2016,38(9):1755-1762. 被引量：6
2杨天明,吴海涛.一种批处理块级数据去重方法[J].计算机应用与软件,2016,33(5):44-46. 被引量：5
3罗恩韬,王国军,李超良.大数据环境中多维数据去重的聚类算法研究[J].小型微型计算机系统,2016,37(3):438-442. 被引量：19
4武晓岩,李康.基因表达数据判别分析的随机森林方法[J].中国卫生统计,2006,23(6):491-494. 被引量：21

二级参考文献39

1Marko R.Improving Random Forests.Machine Learning.ECML Proceedings,Springer,Berlin,2004.
2Ramón D,Sara Alvarez DA.Gene selection and classification of microarray data using random Forest.BMC Bioinformatics,2006,http://www.biomedcentral.com/1471-2105/7/3.
3Liaw A,Wiener M.Classification and regression by randomForest.Rnews,2002,2:18-22.
4Leo B.Random Forests.Statistics Department University of California Berkeley,CA 94720,January 2001.
5Zhu B,Li H,Patterson H.Avoiding the disk bottleneck in the data domain deduplication file system[C]//Proceedings of the 6th USENIX Conference on File And Storage Technologies,2008:269-282.
6Rhea S,Cox R,Pesterev A.Fast,inexpensive content-addressed storage in foundation[C]//Proceedings of the 2008 USENIX Annual Technical Conference,Boston,Massachusetts,June 2008:143-156.
7Lillibridge M,Eshghi K,Bhagwat D,et al.Sparse indexing:Large scale,inline deduplication using sampling and locality[C]//Proceedings of the7th USENIX Conference on File And Storage Technologies,2009:111-123.
8Xia W,Jiang H,Feng D,et al.Silo:a similarity-locality based near-exact deduplication scheme with low ram overhead and high throughput[C]//Proceedings of the 2011 USENIX Annual Technical Conference,2011:26-28.
9Quinlan S,Dorward S.Venti:a new approach to archival storage[C]//Proceedings of the USENIX Conference on File And Storage Technologies,January 2002:89-101.
10Eshghi K,Lillibridge M,Wilcock L,et al.Jumbo store:Providing efficient incremental upload and versioning for a utility rendering service[C]//Proceedings of the 5th USENIX Conference on File And Storage Technologies,2007:22-38.

共引文献44

1郑伟,戴伊宁,孙楠楠,尹乔乔,吴青青,惠田辰,吴文昊,黄海军,童永喜,黄益澄,汪明珊,陈美娟,张家杰,严蓉,高海女,潘红英.应用随机森林模型和Logistic回归模型分析COVID-19的影响因素[J].预防医学,2021,33(7):722-725. 被引量：1
2李文彬,史豪斌,李伟华,齐勇.机器人足球进攻策略的仿真研究[J].计算机仿真,2011,28(2):187-191. 被引量：4
3金如锋,夏昭林.病例对照设计为基础的候选基因关联研究中交互作用的统计方法进展[J].复旦学报（医学版）,2011,38(3):265-270. 被引量：4
4李贞子,张涛,武晓岩,李康.随机森林回归分析及在代谢调控关系研究中的应用[J].中国卫生统计,2012,29(2):158-160. 被引量：32
5范昕,赵桂新,孙萌,张涛.使用随机森林判别分析法预测黑加仑油胶囊治疗高血脂的效果[J].中医药信息,2012,29(4):43-46. 被引量：10
6韩玉,施海龙,曲波,武玉欣,刘洁.随机森林方法在医学中的应用[J].中国预防医学杂志,2014,15(1):79-80. 被引量：25
7张晓婷,李茵,唐晶磊.基于优化聚类算法的大数据分流系统设计仿真[J].计算机仿真,2018,35(12):204-207. 被引量：6
8李亭,田原,邬伦,刘亮.基于随机森林方法的滑坡灾害危险性区划[J].地理与地理信息科学,2014,30(6):25-30. 被引量：44
9闫树英,陈志宏,惠娜,魏玉辉.基于RF和KNN的三种肝炎分类模型的建立[J].宁夏医学杂志,2015,37(6):496-498. 被引量：1
10陈江鹏,彭斌,文雯,曾庆,唐小静,胡珊,文小焱,阙萍.基于最大相关最小冗余朴素贝叶斯分类器的应用[J].中国卫生统计,2015,32(6):932-934. 被引量：1

同被引文献19

1黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：215
2董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
3徐志明,李栋,刘挺,李生,王刚,袁树仑.微博用户的相似性度量及其应用[J].计算机学报,2014,37(1):207-218. 被引量：78
4郎为民,姚晋芳,赵毅丰,余亮琴.大数据中心云存储系统安全数据去重问题[J].电信快报（网络与通信）,2018(3):1-7. 被引量：7
5熊金波,张媛媛,田有亮,应作斌,李琦,马蓉.基于角色对称加密的云数据安全去重[J].通信学报,2018,39(5):59-73. 被引量：11
6蔡艳婧.文本相似度去重并行化算法研究[J].电子制作,2018,26(10):35-37. 被引量：1
7马巍巍,殷凤梅,张江.大数据背景下机器学习并行算法研究[J].电子技术与软件工程,2018(11):194-195. 被引量：6
8张曙光,咸鹤群,刘红燕,侯瑞涛,张曼.云存储中加密数据的自适应重复删除方法[J].计算机应用研究,2018,35(9):2772-2776. 被引量：4
9王诚,王宇成.基于Simhash的大规模文档去重改进算法研究[J].计算机技术与发展,2019,29(2):115-119. 被引量：8
10刘轩甫,刘玉梅.社会机会网络中基于局部敏感哈希的用户隐私保护方案[J].应用科技,2019,46(3):93-99. 被引量：2

引证文献2

1王添男,冯锋.基于SimHash的文本相似检测算法研究[J].电子测试,2019,0(15):87-89. 被引量：1
2唐新宇.基于贝叶斯模型的时序大数据并行去重方法研究[J].自动化与仪器仪表,2021(7):34-37.

二级引证文献1

1徐小桐,王法胜.文档查重系统研究与实现[J].电脑知识与技术,2021,17(11):74-76. 被引量：2

1夏丽也.不同主体综合评价不同客体改进算法[J].微型电脑应用,2017,33(5):15-17.
2金哲凡,俞定国,林生佑,周忠成.基于音位的网络盗版文本查重方法[J].山东农业大学学报（自然科学版）,2017,48(3):467-471.
3张庆梅.舆情去重算法的研究与比较[J].电子设计工程,2017,25(14):23-27. 被引量：1
4农村电商要杜绝“挣快钱”思想[J].新农村（黑龙江）,2017,0(19):7-7.
5付岩,冯径,钱越英.面向大数据的物化视图选择算法[J].计算机应用,2017,37(A01):250-254. 被引量：3
6陈海永,郄丽忠,杨德东,刘坤,李练兵.基于超像素信息反馈的视觉背景提取算法[J].光学学报,2017,37(7):178-186. 被引量：15
7曹银平.曼哈特:依托先进技术服务物流仓储用户[J].自动化博览,2017,34(7):52-53.
8陈世伟,张胜修,杨小冈,齐乃新.基于椭圆对称方向矩的可见光与红外图像配准算法[J].工程科学学报,2017,39(7):1107-1113. 被引量：12

计算机与现代化

2017年第7期

浏览历史

内容加载中请稍等...

基于Simhash的大数据去重改进算法被引量：2

参考文献4

二级参考文献39

共引文献44

同被引文献19

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Simhash的大数据去重改进算法 被引量：2

参考文献4

二级参考文献39

共引文献44

同被引文献19

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Simhash的大数据去重改进算法被引量：2