期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Web的DCI垂直搜索引擎的研究与设计 被引量:7
1
作者 吴洁明 冀单单 韩云辉 《计算机工程与设计》 CSCD 北大核心 2013年第4期1481-1487,共7页
为了解决用户能够快速、准确的搜索互联网上数字作品信息的问题,分析设计了一个对数字作品版权唯一标识符(Digital Copyright Identifier简称DCI)数字作品的垂直搜索引擎。首先基于Heritrix网络爬虫技术,对互联网上的数字作品进行数据... 为了解决用户能够快速、准确的搜索互联网上数字作品信息的问题,分析设计了一个对数字作品版权唯一标识符(Digital Copyright Identifier简称DCI)数字作品的垂直搜索引擎。首先基于Heritrix网络爬虫技术,对互联网上的数字作品进行数据采集和正文信息抽取,并将抽取的数据保存到本地;然后基于Lucene的全文检索工具包,对本地数据进行分词、倒排索引、索引检索和改进的相关度排序等处理,最终设计实现了一个通用可扩展的DCI垂直搜索引擎。实验结果表明,该搜索引擎在很大程度上提高了网页信息抽取的准确度和数据的检索效率。 展开更多
关键词 数据采集 倒排索引 垂直搜索引擎 信息抽取 相关度排序
下载PDF
基于Lucene的数字作品搜索引擎的研究与设计 被引量:10
2
作者 吴洁明 韩云辉 冀单单 《计算机工程与科学》 CSCD 北大核心 2013年第5期166-172,共7页
在Lucene的全文检索工具包的基础上,分析现有的主流中文分词算法和Lucene相关度排序算法,提出了改进的分词算法和改进的相关度排序算法。还采用倒排索引、检索技术、分布式存储和并行计算等技术,分析并设计了一个对海量数字作品信息的... 在Lucene的全文检索工具包的基础上,分析现有的主流中文分词算法和Lucene相关度排序算法,提出了改进的分词算法和改进的相关度排序算法。还采用倒排索引、检索技术、分布式存储和并行计算等技术,分析并设计了一个对海量数字作品信息的搜索引擎,为用户提供对海量数字作品信息的快速、准确的搜索服务。实验分析比较了分词速度和分词效果,还比较了关键词搜索结果的响应时间、命中数量、准确率和召回率。实验结果表明,本系统在很大程度上提高了搜索速度,保证了搜索结果的准确性。 展开更多
关键词 LUCENE 分词算法 索引 相关度排序算法 分布式
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部