-
题名针对中文检索的Lucene改进策略
被引量:10
- 1
-
-
作者
索红光
孙鑫
-
机构
中国石油大学计算机与通信工程学院
-
出处
《计算机应用与软件》
CSCD
2009年第6期175-177,共3页
-
文摘
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。
-
关键词
lucene
索引
中文分词
文档预处理
-
Keywords
lucene index chinese word segmentation documents pretreatment
-
分类号
TP316
[自动化与计算机技术—计算机软件与理论]
G354.4
[文化科学—情报学]
-
-
题名一种基于Lucene的影片搜索引擎的研究和应用
被引量:3
- 2
-
-
作者
匡振国
倪宏
嵇智辉
刘磊
-
机构
中国科学院研究生院
中国科学院声学研究所国家网络新媒体工程技术研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第29期8-10,30,共4页
-
基金
国家科技支撑计划项目(No.2008BAH28B04)
中科院声学研究所创新前瞻项目(No.GS12CXJ01)
-
文摘
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。
-
关键词
lucene
搜索引擎
双字哈希
中文分词
倒排索引
-
Keywords
lucene
search engine
double character hash index
chinese word segmentation
inverted index
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于Lucene的中文全文检索系统的研究与设计
被引量:6
- 3
-
-
作者
索红光
孙鑫
-
机构
中国石油大学(华东)计算机与通信工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第19期5083-5086,共4页
-
文摘
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。
-
关键词
全文检索
网页正文提取
中文分词模块
索引文档预处理
文本聚类
-
Keywords
full text search
web page text extraction
chinese word segmentation
documents for indexing pretreatment
document clustering
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Lucene的企业搜索引擎研究及应用
被引量:1
- 4
-
-
作者
李海丰
-
机构
中南林业科技大学计算机科学学院
-
出处
《电脑知识与技术》
2009年第2期926-929,共4页
-
文摘
分析了企业级搜索引擎应具有的功能和总体架构,研究了Lucene的系统结构及检索原理,提出了统一处理html、pdf、word等多种常用文档的思路。针对中文特点设计搜索引擎的构建技术,包括从源数据采集、文档解析与分词、索引器、信息检索、结果排序的全过程,基于Lucene软件包实现了一个原型系统,取得了较好的搜索效果。
-
关键词
lucene
企业搜索引擎
中文分词
非结构化文档
-
Keywords
lucene
enterprise search engine
chinese word segmentation
unstructured documents
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名主题搜索引擎的研究
被引量:2
- 5
-
-
作者
李瑞芳
杨娜
-
机构
沈阳化工学院计算机科学与技术学院
-
出处
《微型机与应用》
2009年第19期1-3,6,共4页
-
文摘
介绍了将开源的全文检索工具包Lucene嵌入到自己的搜索引擎中来满足开发主题搜索引擎的需求。并基于Lucene中文分词的不足设计了一个比较完善的中文分词器,然后将其引入具体应用中,并且与传统搜索引擎在性能上进行了比较。
-
关键词
lucene
全文检索技术
主题搜索引擎
索引
中文分词
-
Keywords
lucene
full-text retrieval technology
thematic search engine
index
chinese word segmentation
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Lucene的中文分词模块的设计和实现
被引量:3
- 6
-
-
作者
罗宁
徐俊刚
郭洪韬
-
机构
中国科学院研究生院
首都信息发展股份有限公司
-
出处
《电子技术(上海)》
2012年第9期54-56,共3页
-
文摘
基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块。分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力。通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间。下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统。
-
关键词
搜索引擎
中文分词
lucene
哈希索引
-
Keywords
search engine
chinese word segmentation
lucene
Hash index
-
分类号
TP316
[自动化与计算机技术—计算机软件与理论]
-
-
题名汉语分词技术综述
被引量:9
- 7
-
-
作者
熊回香
夏立新
-
机构
华中师范大学信息管理系
-
出处
《图书情报工作》
CSSCI
北大核心
2008年第4期81-84,共4页
-
基金
国家社会科学基金项目"基于中文XML文档的全文检索研究"(项目编号:04CTQ005)研究成果之一。
-
文摘
首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。
-
关键词
汉语自动分词
中文全文检索
文献自动标引
自然语言检索
-
Keywords
chinese automatic word segmentation
chinese full-text retrieval
document auto-index
natural language retrieval
-
分类号
H146
[语言文字—汉语]
-