-
题名基于Web的DCI垂直搜索引擎的研究与设计
被引量:7
- 1
-
-
作者
吴洁明
冀单单
韩云辉
-
机构
北方工业大学信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第4期1481-1487,共7页
-
基金
国家科技部支撑计划课题基金项目(2012BAH04f03)
-
文摘
为了解决用户能够快速、准确的搜索互联网上数字作品信息的问题,分析设计了一个对数字作品版权唯一标识符(Digital Copyright Identifier简称DCI)数字作品的垂直搜索引擎。首先基于Heritrix网络爬虫技术,对互联网上的数字作品进行数据采集和正文信息抽取,并将抽取的数据保存到本地;然后基于Lucene的全文检索工具包,对本地数据进行分词、倒排索引、索引检索和改进的相关度排序等处理,最终设计实现了一个通用可扩展的DCI垂直搜索引擎。实验结果表明,该搜索引擎在很大程度上提高了网页信息抽取的准确度和数据的检索效率。
-
关键词
数据采集
倒排索引
垂直搜索引擎
信息抽取
相关度排序
-
Keywords
data acquisition
inverted index
vertical search engine
information acquisition
relevance sorting algorithm
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Lucene的数字作品搜索引擎的研究与设计
被引量:10
- 2
-
-
作者
吴洁明
韩云辉
冀单单
-
机构
北方工业大学信息工程学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2013年第5期166-172,共7页
-
基金
国家科技部支撑计划课题基金资助项目(2012BAH04f03)
科研基地-科研创新平台资助项目(PXM2013_014212_000011)
-
文摘
在Lucene的全文检索工具包的基础上,分析现有的主流中文分词算法和Lucene相关度排序算法,提出了改进的分词算法和改进的相关度排序算法。还采用倒排索引、检索技术、分布式存储和并行计算等技术,分析并设计了一个对海量数字作品信息的搜索引擎,为用户提供对海量数字作品信息的快速、准确的搜索服务。实验分析比较了分词速度和分词效果,还比较了关键词搜索结果的响应时间、命中数量、准确率和召回率。实验结果表明,本系统在很大程度上提高了搜索速度,保证了搜索结果的准确性。
-
关键词
LUCENE
分词算法
索引
相关度排序算法
分布式
-
Keywords
Lucene
segmentation algorithm
index
relevance sorting algorithm
distributed
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-