-
题名基于Lucene的数字作品搜索引擎的研究与设计
被引量:10
- 1
-
-
作者
吴洁明
韩云辉
冀单单
-
机构
北方工业大学信息工程学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2013年第5期166-172,共7页
-
基金
国家科技部支撑计划课题基金资助项目(2012BAH04f03)
科研基地-科研创新平台资助项目(PXM2013_014212_000011)
-
文摘
在Lucene的全文检索工具包的基础上,分析现有的主流中文分词算法和Lucene相关度排序算法,提出了改进的分词算法和改进的相关度排序算法。还采用倒排索引、检索技术、分布式存储和并行计算等技术,分析并设计了一个对海量数字作品信息的搜索引擎,为用户提供对海量数字作品信息的快速、准确的搜索服务。实验分析比较了分词速度和分词效果,还比较了关键词搜索结果的响应时间、命中数量、准确率和召回率。实验结果表明,本系统在很大程度上提高了搜索速度,保证了搜索结果的准确性。
-
关键词
LUCENE
分词算法
索引
相关度排序算法
分布式
-
Keywords
Lucene
segmentation algorithm
index
relevance sorting algorithm
distributed
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名面向期刊论文的搜索技术的研究与设计
被引量:4
- 2
-
-
作者
郭峰
韩云凤
-
机构
北方工业大学计算机学院
-
出处
《信息技术》
2018年第8期59-65,共7页
-
基金
国家自然科学基金项目(61672041)
-
文摘
为了解决期刊论文的大量存储、PDF文本解析、无法快速准确搜索等问题,文章首先使用HDFS分布式系统存储大量期刊论文,其次采用PDF抽取技术将非纯文本格式的PDF期刊转换为纯文本格式,然后分析比较主流中文分词器,最后采用倒排索引、分布式索引和优化相关度排序算法等,分析并设计了一个面向期刊论文的搜索引擎。实验结果表明,本文有效的解决大量论文的存储和访问,缩短建立索引时间,提高了搜索结果的准确性。
-
关键词
HDFS
信息抽取
倒排索引
分布式索引
相关度排序算法
-
Keywords
HDFS
information extraction
inverted index
distributed index
relevance sortingalgorithm
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名企业内网项目档案检索方法的优化
- 3
-
-
作者
王建永
-
机构
广东电网有限责任公司信息中心
-
出处
《电子技术与软件工程》
2017年第19期158-158,共1页
-
文摘
现阶段,计算机技术应用在各行各业,企业项目档案也全部转换为电子版,并构建企业内网档案检索系统方便管理。当前的企业内网项目档案检索方法存在效率低、准确率低的问题,已经无法满足企业使用要求。为此,提出一种基于计量算法的企业内网项目档案检索优化方法。该检索方法通过计量算法算法对档案数据进行分类处理,强化了信息查询环节,加强了检索的智能程度,提高检索效率,为档案检索技术发展提供借鉴作用。
-
关键词
企业项目档案
数据
B/S模式
相关度排序算法
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-