期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
针对中文检索的Lucene改进策略 被引量:10
1
作者 索红光 孙鑫 《计算机应用与软件》 CSCD 2009年第6期175-177,共3页
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模... 为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。 展开更多
关键词 lucene 索引 中文分词 文档预处理
下载PDF
一种基于Lucene的影片搜索引擎的研究和应用 被引量:3
2
作者 匡振国 倪宏 +1 位作者 嵇智辉 刘磊 《计算机工程与应用》 CSCD 北大核心 2008年第29期8-10,30,共4页
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它... Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。 展开更多
关键词 lucene 搜索引擎 双字哈希 中文分词 倒排索引
下载PDF
基于Lucene的中文全文检索系统的研究与设计 被引量:6
3
作者 索红光 孙鑫 《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使... 提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。 展开更多
关键词 全文检索 网页正文提取 中文分词模块 索引文档预处理 文本聚类
下载PDF
基于Lucene的企业搜索引擎研究及应用 被引量:1
4
作者 李海丰 《电脑知识与技术》 2009年第2期926-929,共4页
分析了企业级搜索引擎应具有的功能和总体架构,研究了Lucene的系统结构及检索原理,提出了统一处理html、pdf、word等多种常用文档的思路。针对中文特点设计搜索引擎的构建技术,包括从源数据采集、文档解析与分词、索引器、信息检索... 分析了企业级搜索引擎应具有的功能和总体架构,研究了Lucene的系统结构及检索原理,提出了统一处理html、pdf、word等多种常用文档的思路。针对中文特点设计搜索引擎的构建技术,包括从源数据采集、文档解析与分词、索引器、信息检索、结果排序的全过程,基于Lucene软件包实现了一个原型系统,取得了较好的搜索效果。 展开更多
关键词 lucene 企业搜索引擎 中文分词 非结构化文档
下载PDF
主题搜索引擎的研究 被引量:2
5
作者 李瑞芳 杨娜 《微型机与应用》 2009年第19期1-3,6,共4页
介绍了将开源的全文检索工具包Lucene嵌入到自己的搜索引擎中来满足开发主题搜索引擎的需求。并基于Lucene中文分词的不足设计了一个比较完善的中文分词器,然后将其引入具体应用中,并且与传统搜索引擎在性能上进行了比较。
关键词 lucene 全文检索技术 主题搜索引擎 索引 中文分词
下载PDF
基于Lucene的中文分词模块的设计和实现 被引量:3
6
作者 罗宁 徐俊刚 郭洪韬 《电子技术(上海)》 2012年第9期54-56,共3页
基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块。分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力... 基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块。分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力。通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间。下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统。 展开更多
关键词 搜索引擎 中文分词 lucene 哈希索引
原文传递
汉语分词技术综述 被引量:9
7
作者 熊回香 夏立新 《图书情报工作》 CSSCI 北大核心 2008年第4期81-84,共4页
首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前汉语自... 首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。 展开更多
关键词 汉语自动分词 中文全文检索 文献自动标引 自然语言检索
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部