期刊文献+

面向期刊论文的搜索技术的研究与设计 被引量:4

Research and design of search technology for paper library
下载PDF
导出
摘要 为了解决期刊论文的大量存储、PDF文本解析、无法快速准确搜索等问题,文章首先使用HDFS分布式系统存储大量期刊论文,其次采用PDF抽取技术将非纯文本格式的PDF期刊转换为纯文本格式,然后分析比较主流中文分词器,最后采用倒排索引、分布式索引和优化相关度排序算法等,分析并设计了一个面向期刊论文的搜索引擎。实验结果表明,本文有效的解决大量论文的存储和访问,缩短建立索引时间,提高了搜索结果的准确性。 In order to solve the problem of mass journal articles storage,PDF text parse,it is not fast and accurate search and other issues,at first this paper uses HDFS distributed system to store a large number of journal articles,secondly it uses PDF extraction technology to convert non-plain text format PDF journals into plain text format,and then it analyzes the mainstream Chinese word segmentation,and finally it uses the inverted index,distributed index and optimization relevance sorting algorithm,it analyzes and designs a search engine for journal papers. The experimental results show that it can effectively solve the storage and access of a large number of papers,shorten the indexing time and improve the accuracy of search results.
作者 郭峰 韩云凤 GUO Feng;HAN Yun-feng(School of Information Engineering,North China University of Technology,Beijing 100144,China)
出处 《信息技术》 2018年第8期59-65,共7页 Information Technology
基金 国家自然科学基金项目(61672041)
关键词 HDFS 信息抽取 倒排索引 分布式索引 相关度排序算法 HDFS information extraction inverted index distributed index relevance sortingalgorithm
  • 相关文献

参考文献4

二级参考文献37

共引文献103

同被引文献34

引证文献4

二级引证文献17

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部