基于Map/Reduce的索引数据云存储模型研究被引量：8

Study on Cloud Storage Model of Map/Reduce-based Index Data

下载PDF

导出

摘要针对目前搜索引擎引擎系统存在的数据量庞大、访问用户高并发性和搜索延迟性的特点,提出了基于云存储的文档索引分类存储模型,并在索引数据分类存储算法实现过程中,采用基于Map/Reduce编程模型的二次索引词权重计算,以降低分类过程中的模糊粒度.通过实验验证基于该存储模型的算法不仅可以提高海量数据索引库的数据处理效率,而且在一定程度上降低了检索系统查询延迟,提高了搜索效率. The main problems of current search engine system applied on intelligent terminals are limited storage capacity with massive data,high-concurrency access of users and search delay of system.Aiming to tackling these problems,this paper proposes a cloud storage model of index classification and adopts a new index storage algorithm based on Map/Reduce programming model.The algorithm calculates the secondary weight of index term in the process of index classification in order to lower the fuzzy granularity of the classification.Based on the experimental results,the proposed storage model can not only improve the mass data processing efficiency,but also to some extent reduce query delay and ameliorate the search efficiency.

作者陆小丽何加铭

机构地区宁波大学通信技术研究所浙江省移动网应用技术重点实验室

出处《宁波大学学报（理工版）》 CAS 2011年第3期29-33,共5页 Journal of Ningbo University：Natural Science and Engineering Edition

基金国家科技重大专项(2011ZX0302-004-02) 国家重大专项核高基项目(2009ZX01039-001-002-004) 科技部公共服务平台基金(9C26243314159) 浙江省科技厅项目(2009C31107) 宁波大学科研基金(B00241104900)

关键词搜索引擎权重 MAP/REDUCE 索引 search engine index classification data storage Map/Reduce

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1孙瑞锋,赵政文.基于云计算的资源调度策略[J].航空计算技术,2010,40(3):103-105. 被引量：43
2蒋建洪.主要分布式搜索引擎技术的研究[J].科学技术与工程,2007,7(10):2418-2424. 被引量：10
3吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J].现代图书情报技术,2007(8):52-55. 被引量：9

二级参考文献25

1雷葆华,杨明川.P2P技术的组网模式与业务模式探讨[J].电信技术,2004(11):54-57. 被引量：16
2董华山,孙济庆.基于P2P的分布式检索模式的研究[J].情报学报,2004,23(6):683-688. 被引量：7
3姚树宇,赵少东.一种使用分布式技术的搜索引擎[J].计算机应用与软件,2005,22(10):127-129. 被引量：7
4蒋建洪.主要分布式搜索引擎技术的研究[J].科学技术与工程,2007,7(10):2418-2424. 被引量：10
5[1]Ross K W,Rubenstein D.Tutorial on P2P systems.Presented at Infocorn 2003,San Francisco,California,USA,2003
6[5]Breokshier D,Govoni D,Krishnan N,et al.JXTA-JAVA P2P progrmnnfing.Sams Publishing,2002
7[6]Waterhouse S.JXTA search:distributed search for distributed networks.Sun Mierosystems,Inc.http://search.jxta.org
8[7]Dean J,Ghemawat S.Map reduce:Simplified data processing on large clusters.OSDI04:Sixth Symposium on Operating System Design and Implementation,San Francisco,CA,December,2004
9李晓明，阎宏飞，王继民．搜索引擎[M]．北京：科学出版社，2005．
10王斌张刚孙健.大规模分布式并行信息检索技术.信息技术快报,2005,3(2):1-9.

共引文献58

1吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J].现代图书情报技术,2007(8):52-55. 被引量：9
2钮焱,黎冬.基于客户反馈的FTP搜索引擎模型设计[J].湖北工业大学学报,2008,23(5):15-17. 被引量：2
3韩忠军.基于Nutch的分布式文件系统研究[J].煤炭技术,2010,29(5):206-208. 被引量：2
4李军,李松斌,王玲芳,倪宏,王劲林.一个基于P2P技术的分布式视频检索系统[J].微计算机应用,2010,31(8):35-42. 被引量：2
5王小磊,李立,赵东升.利用Nutch设计实现生物医学信息垂直搜索引擎[J].北京生物医学工程,2010,29(6):638-640.
6李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
7Qin Yong Jia Limin Zhang Yuan.Railway intelligent transportation system and its applications[J].Engineering Sciences,2011,9(1):53-59. 被引量：4
8袁誉红,杨洁,张学平,金俊丽.WSN中基于云计算的动态频率分配研究[J].电信科学,2011,27(5):82-87.
9钱琼芬,李春林,张小庆.QoS约束的云经济资源管理模型研究[J].计算机科学,2011,38(B10):195-197. 被引量：2
10庞志鹏,陆伟宙.云计算环境下的资源调度研究[J].移动通信,2011,35(23):32-35. 被引量：5

同被引文献69

1孙瑞锋,赵政文.基于云计算的资源调度策略[J].航空计算技术,2010,40(3):103-105. 被引量：43
2梁田.个性化科研主题信息环境构建技术方案实践[J].图书情报工作,2012,56(S2):103-105. 被引量：1
3吴光亮,徐茂生.基于构件的Web应用框架[J].计算机科学,2004,31(B09):171-173. 被引量：2
4张秋余,王璐.分布式系统中数据复制的研究与应用[J].计算机工程与设计,2005,26(5):1185-1186. 被引量：7
5席景科,闫大顺.Web数据挖掘中数据集成问题的研究[J].计算机工程与设计,2006,27(8):1366-1368. 被引量：6
6杨滋荣,文静华,田建强.基于分布式数据库的电力客户服务中心的研究与设计[J].计算机应用与软件,2006,23(8):79-80. 被引量：6
7白丽君.基于COM技术的浏览器Agent初探[J].浙江工商大学学报,2006(3):45-50. 被引量：1
8吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J].现代图书情报技术,2007(8):52-55. 被引量：9
9(美)TomWhite.Hadoop权威指南(第二版)[M].清华大学出版社,2011(7).
10Hadoop :分布式文件系统:架构和设计. http://hadoop. apache.org/common/docs/r0.19.2/en/hdfs_design.html.

引证文献8

1夏立国,潘竹生.基于浏览器插件技术的数据云存储功能的研究[J].现代计算机（中旬刊）,2012(4):11-14.
2方少卿,周剑,张明新.基于Map／Reduce的改进选择算法在云计算的Web数据挖掘中的研究[J].计算机应用研究,2013,30(2):377-379. 被引量：13
3朱琛刚,丁佳佳.分布式数据库的浅析及其在江苏有线电子营业厅中的应用[J].中国数字电视,2013(10):40-42.
4王冬艳,成彬,敦冬梅,羊红光.科研信息采集整合系统研究[J].河北省科学院学报,2013,30(4):22-26. 被引量：2
5亢丽芸,王效岳,白如江.MapReduce原理及其在自然语言处理中的应用研究[J].情报科学,2014,32(5):120-126. 被引量：2
6马友忠,孟小峰.云数据管理索引技术研究[J].软件学报,2015,26(1):145-166. 被引量：43
7李朝霞.基于Hadoop的高校美术绘画资源存储与检索平台设计[J].微型电脑应用,2018,34(8):93-96. 被引量：1
8程亚维.基于Hadoop的采购管理系统设计[J].信息与电脑,2018,30(23):68-69.

二级引证文献61

1陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
2陈卓民.基于HITS算法改进的Web数据挖掘方法研究应用[J].自动化与仪器仪表,2016(7):255-257. 被引量：1
3秦东霞,周航.基于分布式系统的海量数据存储技术[J].周口师范学院学报,2013,30(5):125-128. 被引量：1
4张兴旺,黄晓斌.图书情报学视角下Web挖掘研究述评[J].图书情报工作,2014,58(4):117-126. 被引量：2
5项世军,何嘉勇.一种保序加密域数据库认证水印算法[J].软件学报,2018,29(12):3837-3852. 被引量：3
6李悦,高晶,雷鸣.基于云计算技术的Web数据挖掘的算法研究[J].科技资讯,2014,12(18):17-17. 被引量：3
7李金忠,汤鹏杰,夏洁武,谭云兰.迭代式MapReduce研究进展[J].计算机工程与应用,2015,51(12):123-132. 被引量：2
8刘猛.一种基于云计算的高效数据挖掘框架研究[J].微型电脑应用,2015,31(6):15-19. 被引量：2
9马增金.云计算及其在数据挖掘上的应用探讨[J].通讯世界,2016,22(1):64-64.
10王曙霞,熊曾刚.海量数据干扰下的危险Web数据挖掘技术研究[J].微电子学与计算机,2016,33(2):87-91. 被引量：6

1蒋伟贞,陶宏才.基于类别的特征选择算法的文本分类系统[J].计算机应用,2005,25(11):2658-2660. 被引量：1
2袁丽娜.基于Hadoop的海量数据存储技术的研究[J].中国新通信,2016,18(19):61-63. 被引量：1
3刘葵,程文.好车还需好路——SGI首席科学家吴永琳先生谈新总线结构[J].中国经济和信息化,1999,0(12):21-21.
4张希彬,秦超英,高蕊.含无序量测的多传感器信息融合算法研究[J].传感技术学报,2006,19(4):1310-1312. 被引量：6
5孙知信,黄涵霞.基于云计算的数据存储技术研究[J].南京邮电大学学报（自然科学版）,2014,34(4):13-19. 被引量：20
6郑志宏,徐卓君,文红,郑志高.改进搜索引擎及其数据结构的设计[J].情报科学,2012,30(2):200-205. 被引量：2
7段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
8魏科科.基于Oracle数据库的索引优化[J].电脑知识与技术,2010,6(10):7902-7904.
9倪晟,宁洪.基于XML的搜索引擎相关度计算的改进[J].计算机工程与科学,2005,27(2):20-22. 被引量：1
10王永伟,樊建席,刘文军,沈海飞.基于移动代理的结构化P2P网络模型[J].计算机工程与设计,2013,34(10):3390-3393.

宁波大学学报（理工版）

2011年第3期

浏览历史

内容加载中请稍等...

基于Map/Reduce的索引数据云存储模型研究被引量：8

参考文献3

二级参考文献25

共引文献58

同被引文献69

引证文献8

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于Map/Reduce的索引数据云存储模型研究 被引量：8

参考文献3

二级参考文献25

共引文献58

同被引文献69

引证文献8

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于Map/Reduce的索引数据云存储模型研究被引量：8