布隆过滤器在网页消重中的应用被引量：2

The Bloom Filter Applies in Data Deduplication

下载PDF

导出

摘要随着互联网的发展,网络信息呈爆炸性的增长。大量的信息一方面给人们带来了更多的消息来源,而另一方面也给人们搜索有用的信息带来巨大的负担。根据2015年11月的最新数据,互联网上活动网站的数量达到了902,997,800个。因此如何更有效的消除互联网中的重复信息,让人们便捷的找到所求,已经成为现代互联网的一个重要的问题。布隆过滤器(Bloom Filter)是1970年提出的一种去重算法,它实际上是由一个很长的二进制向量和一系列随机映射函数组成的,拥有查询速度快和占用空间低的优点,然而其存在一定的误识别率。针对这个问题,本文设计了一种多维布隆过滤器算法,有效降低了传统布隆过滤器误识别率,并且通过实验,测试对比误称率和查询速度。 With the development of Internet,the information in Internet has grown rapidly.On the one hand,a lot of information brings people more source,on the other hand it also brings people huge burden on searching useful infor-mation.According to the newest data in November,2015,the number of active websites on Internet is up to 902,997, 800.So how to deduplication information on Internet effectively and let people find what they need has become a criti-cal problem in modern Internet.Bloom Filter is a duplicated deletion algorithm proposed in 1970.It actually consists of a very long series of random binary vectors,and a lot of hash functions.And it has advantages of fast searching speed and low memory cost.But it has error probability in recognizing.Aiming at this problem,a multidimensional Bloom Filter is proposed and reduces error probability in recognizing effectively.And experiment is done to test error probability in recognizing and searching speed.

作者潘昊鄂海红宋美娜

机构地区北京邮电大学计算机学院

出处《软件》 2015年第12期166-170,共5页 Software

关键词算法理论多维布隆过滤器布隆过滤器网页消重 Algorithm theory Multidimensional bloom filter Bloom filter Webpage deduplication

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Netcraft.November 2015 Web Server Survey(OL)http://news.netcraft.com/archives/2015/11/16/november-2015-web-server-survey.html . 2015
2Burton H. Bloom.Space/time trade-offs in hash coding with allowable errors[J].Communications of the ACM.1970(7)
3Rafael P. Laufer,Pedro B. Velloso,Otto Carlos M.B. Duarte.??A Generalized Bloom Filter to Secure Distributed Network Applications(J)Computer Networks . 2011 (8)
4丁振国,吴宝贵,辛友强.基于Bloom Filter的大规模网页去重策略研究[J].现代图书情报技术,2008(3):45-50. 被引量：15
5徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
6阮卫华.搜索引擎优化技术的研究与实现[J].软件,2014,35(7):72-77. 被引量：11
7黄恩博.基于布隆过滤器的网页搜索去重方法[J].现代计算机,2013,19(14):7-10. 被引量：4
8郭世龙,王晨升.主题爬虫设计与实现[J].软件,2013,34(12):107-109. 被引量：8
9郑晓健.面向领域主题的智能搜索引擎设计[J].软件,2014,35(3):4-5. 被引量：11
10Manber U.Finding similar files in a large file system. Proceedings of USENIX Winter Technical Conference . 1994

二级参考文献44

1王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
2吴文辉,任毅.轻量级键盘鼠标模拟脚本引擎实现[J].软件,2013,34(8):56-57. 被引量：8
3汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
4吴丽辉,白硕,张刚,张凯.Web信息采集中的哈希函数比较[J].小型微型计算机系统,2006,27(4):673-676. 被引量：8
5池静,倪健,王华,邢秀娥.Bloom Filter和Weighted Bloom Filter的比较与研究[J].河北师范大学学报（自然科学版）,2006,30(4):398-402. 被引量：4
6谢鲲,闵应骅,张大方,谢高岗,文吉刚.分档布鲁姆过滤器的查询算法[J].计算机学报,2007,30(4):597-607. 被引量：14
7Gulli A, Signorini A. The Indexable Web is More than 11.5 Billion Pages[ C ]. Special Interest Tracks and Posters of the 14th International Conference on World Wide Web WWW ' 05. ACM Press 2005 : 902 - 903.
8Bloom B. Space/time Tradeoffs in Hash Coding with Allowable Errors [ J]. Communication of the ACM, 1970, 13 (7) :422 - 426.
9Cormen T H, Leiserson C E. Introduction to Algorlthms[M]. 2nd ed. Cambridge: MIT Press, 2001:221 - 252.
10Fan L, Cao P, Almeida J,et al. Summary Cache: A Scalable Wide -area Web Cache Sharing Protocol [ C ]. In : IEEE/ACM Transactions On Networking,2000,8 ( 3 ) :281 - 293.

共引文献42

1徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
2苏国荣,杨岳湘,邓劲生.一种去除重复URL的算法[J].广西师范大学学报（自然科学版）,2010,28(1):122-126. 被引量：4
3李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
4田大军,李舒,赵林亮.网站孤立文件及其形成机制分析[J].电脑与信息技术,2011,19(2):40-44.
5李跃健,朱程荣.基于Larbin的网络爬虫体系结构的研究与改进[J].计算机技术与发展,2012,22(7):147-150. 被引量：2
6张超,闫宏印.多线程网络爬虫的设计与实现[J].电脑开发与应用,2012,25(6):65-67. 被引量：3
7田大军,赵林亮.基于正则表达式的网站孤立文件发现机制[J].网络新媒体技术,2012,1(5):21-25.
8熊志斌,王冬,尹成国.舆情监测技术及应用综述[J].软件,2012,33(12):322-326. 被引量：2
9高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
10茹立云,李智超,马少平.搜索引擎索引网页集合选取方法研究[J].计算机研究与发展,2014,51(10):2239-2247. 被引量：9

同被引文献13

1许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
2汪涛,樊孝忠.主题爬虫的设计与实现[J].计算机应用,2004,24(S1):270-272. 被引量：40
3高乐,张健,田贤忠.基于视觉的Web页面分块算法的改进与实现[J].计算机系统应用,2009,18(4):65-69. 被引量：11
4王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：714
5陈立玮,冯岩松,赵东岩.基于弱监督学习的海量网络数据关系抽取[J].计算机研究与发展,2013,50(9):1825-1835. 被引量：34
6程光熙,朱琴华,王海林.新形势下高校招投标工作的实践与探索[J].廉政文化研究,2013,4(5):76-81. 被引量：17
7熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15
8吴玮.基于空间向量模型的垃圾文本过滤方法[J].湖南科技大学学报（自然科学版）,2014,29(1):78-83. 被引量：4
9周开乐,杨善林,丁帅,罗贺.聚类有效性研究综述[J].系统工程理论与实践,2014,34(9):2417-2431. 被引量：109
10赵雪,崔荣一.基于N层向量空间模型的文本相似度计算方法[J].延边大学学报（自然科学版）,2016,42(3):231-234. 被引量：3

引证文献2

1袁琰伟,陆培军.一种面向高校招投标公告主题爬虫的设计[J].软件导刊,2018,17(2):117-119.
2朱林.基于Web的主题内容提取与存储系统研究[J].软件,2016,37(11):30-32.

1刘威,郭渊博,黄鹏.基于多维布隆过滤器的模式匹配引擎[J].计算机应用,2011,31(1):107-109. 被引量：8
2张元丰,董守斌,张凌,陈晓志.基于Map/Reduce的网页消重并行算法[J].广西师范大学学报（自然科学版）,2007,25(2):153-156. 被引量：2
3鄢靖丰,程菊明,熊德兰,张泊平.基于小世界现象的网页消重和排序[J].计算机工程,2008,34(23):136-138. 被引量：1
4杨俊峰.一种中文网页消重算法的设计与实现[J].电子技术（上海）,2013(9):29-31.
5芮文艳.从搜索引擎的分析系统看网站优化[J].信息与电脑（理论版）,2011(1):80-81.
6三未信安科技自主研发金融数据密码机[J].信息安全与通信保密,2014,0(6):70-70.
7吴伟明.微软Windows版本Build号即将突破10000[J].计算机与网络,2015,41(2):35-35.
8周国亮,萨初日拉,朱永利.Spark环境下基于多维布隆过滤器的星型连接算法[J].计算机应用,2016,36(2):353-357. 被引量：1
9刘书一.基于文本相似度的网页消重策略[J].计算机应用与软件,2011,28(11):228-229. 被引量：6
10王祖析.基于网页内容的网页消重高效检测算法研究[J].佳木斯大学学报（自然科学版）,2010,28(1):22-24. 被引量：1

软件

2015年第12期

浏览历史

内容加载中请稍等...

布隆过滤器在网页消重中的应用被引量：2

参考文献13

二级参考文献44

共引文献42

同被引文献13

引证文献2

相关作者

相关机构

相关主题

浏览历史

布隆过滤器在网页消重中的应用 被引量：2

参考文献13

二级参考文献44

共引文献42

同被引文献13

引证文献2

相关作者

相关机构

相关主题

浏览历史

布隆过滤器在网页消重中的应用被引量：2