基于布隆过滤器的海量数据查询技术的优化与应用被引量：2

The Query Optimization and Application of BloomFilter for Large Dataset

下载PDF

导出

摘要通过一个用户行为数据分析的案例,说明了布隆过滤器的原理和应用场景。在案例中,需要使用MapReduce框架在海量数据中筛选出付费用户相关的数据,布隆过滤器算法提供了一种快速、有效的实现方法。简述了使用MongoDB内存数据库存储付费用户的解决方案,其搜索效率高,但随着数据量的增加,一对多并发查询给服务端带来的压力会越来越大;如果使用分布式缓存的方法,这时为一对一存取,带来的问题是占用内存增大,如果数据结构选择HashSet,存入量大时,则容易使堆内存溢出,故考虑使用自定义数据结构:布隆过滤器,对其原理和误判率进行了分析,并针对其可能产生的错误数据("假阳性")提出消除方案,经实验验证,布隆过滤器占用内存低、查找效率高,解决本类问题极为合适。 The theory and application scenarios of Bloom filter is illustrated by an analysis sample of customer behavior data.During the project Bloom filter can be used to search for large dataset effectively at a rapid rate.At the beginning of this paper,in-memory database,like MongoDB,is used to solve that question,with a lookup time complexity of O（1）after default index（_id）is the only one permitted to save the premium accouts.The disadvantage is that the functionality needed is limited and the pressure brought by concurrent（one to multiple）query becomes bigger as the valume of data increses.Then the accounts can be read into momery througth appropriate data structure using distributed cache.The mode of data access is changed into oneto-one,resulting in the bigger usage of memory.With a small amount of data to be processed,the performace of HashSet is acceptable because of its convience and speed.As the volume of data increases,Heap memory may overflow.Then,a custom data structure is adopted for the Bloom filter.The basic theory and false positive rate are analyzed,the error data（False Positive Error）,reduced by Bloom Filter,can be eliminated.Theory analysis and experiment show that the features of low space usage and high search efficiency for Bloom filter are appropriate to solve this problem.

作者饶文陈旭

机构地区南京烽火软件科技有限公司南京烽火星空通信发展有限公司

出处《微型电脑应用》 2018年第2期68-71,80,共5页 Microcomputer Applications

关键词 MAPREDUCE 布隆过滤器数据集 MONGODB MapReduce Bloom filter Dataset Mongo DB Hash table

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1姚经纬,杨福军.Redis分布式缓存技术在Hadoop平台上的应用[J].计算机技术与发展,2017,27(6):146-150. 被引量：19
2余志坚,姜春志.采用Scheduled Thread Pool Executor执行定时重试任务时内存溢出的分析及解决[J].科技资讯,2016,14(7):15-17. 被引量：1
3刘云生,许贵平.内存数据库的图论存取方法[J].计算机学报,2001,24(10):1095-1101. 被引量：8
4肖明忠,代亚非.Bloom Filter及其应用综述[J].计算机科学,2004,31(4):180-183. 被引量：31
5周斌,王晶奇,张莹.布隆过滤器在重复数据删除中的应用[J].电脑知识与技术（过刊）,2014,0(3X):1793-1795. 被引量：2
6吴丽辉,白硕,张刚,张凯.Web信息采集中的哈希函数比较[J].小型微型计算机系统,2006,27(4):673-676. 被引量：8
7王鹏.关于布隆过滤器在BSS中应用[J].中国新通信,2017,19(1):95-96. 被引量：1

二级参考文献40

1谢鲲,闵应骅,张大方,谢高岗,文吉刚.分档布鲁姆过滤器的查询算法[J].计算机学报,2007,30(4):597-607. 被引量：14
2Bloom B. Space/time tradeoffs in hash coding with allowable errors. Communications of the ACM, 1970,13(7): 422-426
3Mitzenmacher M. Compressed Bloom Filters. In: Proc. of the 20th ACM Symposium on Principles of Distributed Computing (PODC2001) ,Aug. 2001
4Fan L,Cao P,Almeida J,Broder A. Summary cache: a scalable wide-area web cache sharing protocol. IEEE/ACM transactions on networking,2000,8(3)
5Kubiatowicz J,et al. OceanStore: An architecture for globe-scale persistent storage. In:Proc. of the 9th Intl. conf. on architectural support for programming languages and operating systems (ASPLOS 2000) ,2000
6Ramakrishna M V. Practical performance of Bloom Filters and parallel free-text searching. Communications of the ACM, 1989,32(10):1237-1239
7Mulllin J K. A second look at Bloom Filters. Communiations of the ACM,1983,26(8) :570-571
8Witten I H, Moffat A, Bell T. Managing Gigabytes (2nd Edition). Morgan Kaufmann,San Francisco, 1999
9Zhao B Y, Kubiatowicz J, Joseph A D. Tapstry: An infrastructure for fault-tolerant wide-area location and routing.Computer Science Division University of California, (UCB/CSD-01-1141) ,April 2001
10Balter M H, Leighton T, Lewin D. Resource discovery in distributed networks. In: Proc. of the 18th annual ACM symposium on priciples of distributed computing (PODC'99),1999

共引文献60

1徐艇.嵌入式实时数据库存取机制研究[J].科技风,2010(5). 被引量：2
2邹涛,苗青,刘丽,张翠.网络文本内容取证系统中的数据缩减性能分析[J].通信学报,2009,30(S1):93-96. 被引量：1
3刘云生,陈世俊.基于多线程的流水线查询处理方式[J].计算机应用,2004,24(6):54-56. 被引量：4
4罗辞勇,张占龙.无功优化软件图形平台集成的研究[J].计算机仿真,2005,22(1):224-226.
5张晓翊,张玉峰.基于Multi-Agent的竞争情报智能采集模型研究[J].情报科学,2006,24(12):1776-1781. 被引量：2
6丁振国,吴宝贵,辛友强.基于Bloom Filter的大规模网页去重策略研究[J].现代图书情报技术,2008(3):45-50. 被引量：15
7张继德,屈尔庆,贺志芳.基于发布/订阅系统的安全管理平台设计[J].计算机科学,2008,35(4):288-291.
8王键.d-Left CBF技术在P2P中的研究[J].计算机工程与设计,2008,29(7):1711-1712. 被引量：1
9赵涛,蔡皖东,李勇军.传感器网络失效节点识别技术研究[J].计算机科学,2008,35(5):64-65.
10肖明忠,王佳聪,闵博楠.针对动态集的矩阵型Bloom filter表示与查找[J].计算机应用研究,2008,25(7):2001-2003. 被引量：4

同被引文献7

1王伟晨.基于布隆过滤器算法的数据检索误判率研究[J].计算机产品与流通,2020,0(3):260-261. 被引量：2
2苏国荣,杨岳湘,邓劲生.一种去除重复URL的算法[J].广西师范大学学报（自然科学版）,2010,28(1):122-126. 被引量：4
3韩永志.统计学在理化检验中的应用第六讲正态分布及其检验[J].理化检验（化学分册）,2000,36(2):94-95. 被引量：9
4曹秀丽.XML数据查询处理和优化策略研究[J].科技广场,2017(1):24-31. 被引量：1
5杨力.布隆算法在网络爬虫中的应用[J].电子世界,2019,0(3):156-156. 被引量：2
6李建江,马占宁,张凯.一种基于内容分块的层次化去冗优化策略[J].电子学报,2019,47(5):1094-1100. 被引量：4
7王鹏超,杜慧敏,曹广界,杜琴琴,丁家隆.基于布隆过滤器的精确匹配算法设计与实现[J].计算机科学,2015,42(S1):429-434. 被引量：8

引证文献2

1赵青杉,段宗娟,胡玉兰.基于布隆过滤算法的五台山数据分析应用研究[J].忻州师范学院学报,2020,36(5):1-4. 被引量：1
2李卓宇,夏必胜,马乐荣.布隆过滤器算法误判率的分析与应用[J].延安大学学报（自然科学版）,2021,40(1):68-71. 被引量：2

二级引证文献3

1雷蒙,肖文超,高佳宁,廖雪花.基于位标识的可擦写高效过滤器算法与实现[J].软件导刊,2022,21(8):120-125.
2姜斌祥,许鸿奎,何丹.基于区块链的毒品检验大数据效率改进[J].吉林大学学报（工学版）,2022,52(7):1666-1678. 被引量：1
3唐豪,易文龙,赵应丁,殷华,徐亦璐.基于区块链的农产品可信检测数据存储方法[J].科学技术与工程,2022,22(24):10631-10637. 被引量：5

1郑旭.事业单位档案管理中现代化方式的利用[J].科学中国人,2017(5Z):78-78.
2俞珂莹,黄凯.施工企业工程项目管理方法的优化与应用分析[J].中国房地产业,2016,0(5X):136-136.
3董昊,毕远杰.机械设计制造及其自动化的设计相关研究[J].山东工业技术,2018(6):18-18. 被引量：2
4姜浩.关系数据库中的关键词查询结果动态优化[J].纳税,2017,11(4):114-114.
5马英.加强电子档案管理的研究——以新疆兵团十师团场为例[J].明日风尚,2017,0(16):369-369.
6何松景.浅析电力用户用电信息采集系统及应用[J].中国高新区,2017,0(16):119-119. 被引量：1
7陈波.基于HBASE分布式存储的通用海量日志系统设计方法研究[J].信息通信,2017,30(6):7-9. 被引量：1
8朱建波.新形势下档案管理工作的规范化探讨[J].中国科技纵横,2017,0(4):199-199.
9降速门[J].普洱,2018,0(2):24-24.
10钟若武,王惠平.基于数据挖掘的高校云计算管理系统中特定数据查询技术[J].现代电子技术,2018,41(2):130-132. 被引量：19

微型电脑应用

2018年第2期

浏览历史

内容加载中请稍等...

基于布隆过滤器的海量数据查询技术的优化与应用被引量：2

参考文献7

二级参考文献40

共引文献60

同被引文献7

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于布隆过滤器的海量数据查询技术的优化与应用 被引量：2

参考文献7

二级参考文献40

共引文献60

同被引文献7

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于布隆过滤器的海量数据查询技术的优化与应用被引量：2