搜索引擎倒排文件的一种分块组织技术被引量：9

A Blocking Inverted File Structure for Search Engine

下载PDF

导出

摘要检索效率对大规模信息检索系统至关重要 .本文基于Web搜索应用背景 ,针对用户查询的统计特性 ,提出了一种分块组织倒排文件的方法 .通过建立检索性能模型 ,进行分析和仿真实验 ,结果表明这一方法下的检索算法可以有效的减少检索执行时间 ,并得到这一组织方式中分块参数的优化选择方法 . The efficiency of retrieval system is crucial for large scale information retrieval systems.By analyzing the documents and the users' query logs of a real search engine,a blocking inverted file structure is proposed.Simulation results show that the retrieval algorithm under the new organization of the inverted file can decrease its execution time significantly,and the optimal parameter selection for this blocking organization is discussed.

作者彭波李晓明

机构地区北京大学计算机科学技术系

出处《电子学报》 EI CAS CSCD 北大核心 2005年第2期358-362,共5页 Acta Electronica Sinica

基金国家 973计划项目 (No G1 9990 32 70 6) 教育部博士点基金 (No 2 0 0 30 0 0 1 0 76)

关键词搜索引擎信息检索倒排文件检索效率 search engine information retrieval inverted file retrieval efficiency

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1B-S Jeong,E Omiecinski.Inverted file partitioning schemes in multiple disk systems[J].IEEE Transactions on Parallel and Distributed Systems,1995,6(2):142-153.
2A Tomasic,H Garcia-Molina.Performance of inverted indices in shared-nothing distributed text document information retrieval systems[A].Proc PDIS Conf[C].San Diego,CA,1993.
3F Scholer,H E Williams,J Yiannis,J Zobel.Compression of inverted indexes for fast query evaluation[A].Proceedings of the 25th annual international ACM SIGIR conference on research and development in information retrieval[C].Tampere,Finland,2002.222-229.
4G Navarro,E Moura,M Neubert,N Ziviani,R Baeza-Yates.Adding compression to block addressing inverted indexes[J].Kluwer Information Retrieval Journal,2000.3(1):49-77.
5Anh NgocVo,Alistair Moffat.Compressed inverted files with reduced decoding overheads[A].Proceedings of the 21st International Conference on Research and Development in Information Retrieval[C].New York City:ACM Press,August 1998.290-297.
6Witten I H,Moffat A,Bell T C.Managing Gigabytes:Compressing and Indexing Documents and Images[M].Van Nostrand Reinhold,New York,1994.
7A Moffat,J Zobel.Self-indexing inverted files for fast text retrieval[J].ACM Transactions on Information Systems,1996,14(4):349-379.
8M Persin,J Zobel,R Sacks-Davis.Filtered document retrieval with frequency-sorted indexes[J].Journal of the American Society for Information Science,1996,47(10):749-764.
9S Brin,L Page.The anatomy of a large-scale hypertexual Web search engine[A].In Proceedings of the 7th WWW conference[C].Computer Networks,Amsterdam,1998.
10Lua K T.Frequency-rank curves and entropy for Chinese characters and words[J].Computer Processing of Chinese & Oriental Languages,1994,8(1):37-52.

二级参考文献1

1Li W，IEEE Trans Information Theory，1992年，38卷，6期，1842页

共引文献14

1李玉鑑,肖创柏.蛋白质序列中可能存在的Zipf定律[J].北京工业大学学报,2005,31(4):366-368. 被引量：1
2韦向峰,张全,熊亮.一种基于语义分析的汉语语音识别纠错方法[J].计算机科学,2006,33(10):152-155. 被引量：2
3赵亮.基于复合结构的高效索引在线更新策略[J].计算机工程,2008,34(2):75-77. 被引量：1
4王洋,刘宇凡,陈清华.汉语言文学作品中词频的Zipf分布[J].北京师范大学学报（自然科学版）,2009,45(4):424-427. 被引量：13
5刘宇凡,郭金忠,陈清华.唐代以来汉语文学作品中的字频演变[J].中文信息学报,2011,25(3):93-97. 被引量：4
6方应谦,王鲁.汉字识别中以词为分类单位的分类器研究[J].中文信息学报,2000,14(2):26-30. 被引量：2
7游荣彦.Zipf定律与汉字字频分布[J].中文信息学报,2000,14(3):60-65. 被引量：19
8郑晨,胡满峰.莫言作品中字频、词频的Zipf分布[J].江南大学学报（自然科学版）,2013,12(3):347-350. 被引量：2
9谢思炜.汉语诗歌词语管窥——以《唐诗三百首》为样本[J].清华大学学报（哲学社会科学版）,2015,30(3):76-84.
10刘胜久,李天瑞,珠杰.Zipf定律与网络信息计量学[J].中文信息学报,2015,29(4):89-94. 被引量：5

同被引文献85

1黄强.搜索引擎技术研究[J].计算机与现代化,2004(11):80-82. 被引量：4
2王希瑶.浅析搜索引擎技术及技巧[J].电脑知识与技术（技术论坛）,2005(7):42-44. 被引量：2
3王智强,刘建毅.一种实时更新索引结构的设计与实现[J].计算机系统应用,2005,14(10):79-82. 被引量：8
4马瑞敏,邱均平.基于CSSCI的论文同被引实证计量研究——以图书馆学、情报学为例[J].图书情报知识,2005,22(5):77-79. 被引量：28
5文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
6韩立新.对搜索引擎中评分方法的研究[J].电子学报,2005,33(11):2094-2096. 被引量：4
7刘锐,李盘林,李秉智.一种适用于大容量Flash存储系统的管理方案[J].计算机应用研究,2006,23(2):87-88. 被引量：3
8李栋,史晓东.一种支持高效检索的实时更新倒排索引策略[J].情报学报,2006,25(1):16-20. 被引量：6
9向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27
10吴文娟,车明.搜索引擎倒排索引技术的改进[J].微处理机,2006,27(6):83-85. 被引量：8

引证文献9

1邓攀,刘功申.一种高效的倒排索引存储结构[J].计算机工程与应用,2008,44(31):149-152. 被引量：22
2郑榕增,林世平.基于Lucene的中文倒排索引技术的研究[J].计算机技术与发展,2010,20(3):80-83. 被引量：50
3刘阳,宋余庆.搜索引擎学术研究知识图谱[J].图书情报知识,2010,27(6):105-110. 被引量：10
4乔亚男,齐勇.查询语义图辅助的信息检索性能预测模型[J].电子学报,2011,39(A03):158-162. 被引量：2
5曾剑平,吴承荣,龚凌晖.面向分布式搜索引擎的索引库动态维护算法[J].山东大学学报（理学版）,2011,46(5):24-27. 被引量：1
6周斌,王新春.一种海量数据库记录归档处理和查询方案[J].信息技术与标准化,2011(10):47-51.
7马健,张太红,陈燕红.中文搜索引擎分块倒排索引存储模式[J].计算机应用,2013,33(7):2031-2036. 被引量：10
8时亚南,束文杰,于国欣.倒排文件页式存储方法[J].计算机系统应用,2015,24(5):253-256. 被引量：1
9周一舟.中文搜索引擎的初步探索[J].中国科技博览,2015,0(29):312-313.

二级引证文献87

1郑榕增,林世平.基于Lucene的中文倒排索引技术的研究[J].计算机技术与发展,2010,20(3):80-83. 被引量：50
2王远定,梁久祯.利用关键词倒排表实时检索中文网页[J].计算机工程与应用,2010,46(28):135-137. 被引量：4
3丁兆贵,金敏.基于Lucene的个性化搜索引擎研究与实现[J].计算机技术与发展,2011,21(2):105-108. 被引量：9
4方跃胜,姚宏亮.法律搜索引擎索引系统同步模块的设计与实现[J].计算机技术与发展,2011,21(3):137-141.
5孙海东,张力.基于Lucennee.t的医学教育视频垂直检索的设计与实现[J].开放教育研究,2011,17(2):105-112. 被引量：3
6谭斌,丁莎,车念,徐力,聂清彬,谭钱茂,黄翔.一种面向域的高效倒排索引结构及实时更新[J].四川大学学报（自然科学版）,2011,48(2):321-326. 被引量：2
7陈圣群,李静,洪亲.基于XML电子病历的索引策略研究与实现[J].莆田学院学报,2011,18(2):54-56. 被引量：1
8吴代文,詹海生.西安市数字方志全文检索系统的设计与实现[J].计算机技术与发展,2011,21(10):121-124. 被引量：1
9姜鑫,余平.基于Lucene的音视频资源检索系统的研究与实现[J].计算机应用与软件,2011,28(11):245-248. 被引量：5
10陈楚云,李丽霞,周蔚林.用搜索引擎技术开发和利用针灸古文献[J].世界科学技术-中医药现代化,2011,13(5):821-824. 被引量：4

1杨晓波.分块组织技术的倒排索引方法研究[J].计算机工程与应用,2012,48(5):113-117. 被引量：4
2杨莹,冯立颖,赵静,陈利.基于分块和包围球误差函数的地形绘制方法[J].计算机工程,2010,36(15):199-201. 被引量：3
3姚萌萌,沈永增.嵌入式电子地图数据分块组织研究[J].电子技术（上海）,2012,39(11):8-11. 被引量：1
4郭虎奇,费向东,刘小玲.基于LOD的自适应无裂缝地形渲染[J].计算机工程与设计,2013,34(3):1004-1007.
5郭剑峰,陈潇君,柯佳,陈祖爵.具有多维特征的WSN路由协议研究[J].计算机工程,2011,37(18):103-105. 被引量：1
6周大尉,李永刚,董可为.测量船校飞试验的视景仿真系统实现[J].系统仿真学报,2008,20(S1):265-267. 被引量：3
7张钧,王鹏.一种新的矢量数据多边形的快速裁剪算法[J].中国图象图形学报,2008,13(12):2409-2413. 被引量：7
8吕梦雅,杨莹,唐勇,毕卫红.嵌套二叉树实现大规模地形实时绘制[J].系统仿真学报,2008,20(14):3742-3745. 被引量：2
9王艳慧.对面向位置服务的多尺度空间数据组织与自适应可视化研究的分析[J].高技术通讯,2013,23(1):60-65.
10高宇,邓宝松,杨冰,吴玲达.基于外存的大规模虚拟环境交互漫游[J].系统仿真学报,2006,18(10):2988-2991. 被引量：7

电子学报

2005年第2期

浏览历史

内容加载中请稍等...

搜索引擎倒排文件的一种分块组织技术被引量：9

参考文献15

二级参考文献1

共引文献14

同被引文献85

引证文献9

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

搜索引擎倒排文件的一种分块组织技术 被引量：9

参考文献15

二级参考文献1

共引文献14

同被引文献85

引证文献9

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

搜索引擎倒排文件的一种分块组织技术被引量：9