期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于Lucene的中文字典分词模块的设计与实现 被引量:27
1
作者 向晖 郭一平 王亮 《现代图书情报技术》 CSSCI 北大核心 2006年第8期46-50,共5页
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。
关键词 搜索引擎 lucene 中文分词 正向最大匹配算法
下载PDF
一种基于Lucene的中文分词的设计与测试 被引量:6
2
作者 王志嘉 薛质 《信息技术》 2010年第12期50-54,共5页
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更... 设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能。在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异。对于如何构建一个高效的中文检索系统,提出了一种实现方案。 展开更多
关键词 中文分词 搜索引擎 lucene 正向最大匹配算法
下载PDF
基于字符串匹配的中文分词算法的研究 被引量:19
3
作者 常建秋 沈炜 《工业控制计算机》 2016年第2期115-116,119,共3页
伴随着信息技术的日新月异,互联网上的信息呈现出爆炸式的增长,为了满足人们快速而准确地获取信息,Lucene检索技术便应运而生。由于Lucene自带的分析器对中文分词效果不明显,切分出很多无用词,而且切分出的词失去原有意义。针对此问题,... 伴随着信息技术的日新月异,互联网上的信息呈现出爆炸式的增长,为了满足人们快速而准确地获取信息,Lucene检索技术便应运而生。由于Lucene自带的分析器对中文分词效果不明显,切分出很多无用词,而且切分出的词失去原有意义。针对此问题,在基于字符串的正向最大匹配分词方法的基础上,提出改进的方法,从而提高分词的准确性。最后,通过实验验证改进后的方法对分词的效果。 展开更多
关键词 lucene 中文分词 正向最大匹配算法
下载PDF
基于DRIS系统中的中文自动分词模块设计与实现 被引量:1
4
作者 张昭楠 马亚蕾 《电子设计工程》 2016年第14期158-160,共3页
随着信息检索技术越来越受到人们的重视,其中的中文自动分词技术就显得越来越重要。计算机通过对文本中的词语进行识别与处理,直接将结果传送给搜索引擎进行检索。文中在域内资源整合系统(DRIS)的基础上,设计并开发了一个全新的中文自... 随着信息检索技术越来越受到人们的重视,其中的中文自动分词技术就显得越来越重要。计算机通过对文本中的词语进行识别与处理,直接将结果传送给搜索引擎进行检索。文中在域内资源整合系统(DRIS)的基础上,设计并开发了一个全新的中文自动分词模块。通过算法的比对,选择了正向匹配算法作为该模块的基本算法,对其文件结构,中文词典初始化及识别处理过程做出详细介绍。经后期使用后可比较出该模块在检索效率与服务质量上都有了很大程度上的提高,达到了设计要求。 展开更多
关键词 DRIS系统 中文自动分词 搜索引擎 正向最大匹配法
下载PDF
基于MMSEG算法的中文分词技术的研究与设计 被引量:5
5
作者 张中耀 葛万成 +1 位作者 汪亮友 林佳燕 《信息技术》 2016年第6期17-20,共4页
文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,... 文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,该方法可以更快更好地实现中文分词功能,可有效提高全文检索中的中文检索的能力。 展开更多
关键词 中文分词 正向最大匹配算法 MMSEG lucene
下载PDF
基于Lucene的中文分词方法设计与实现 被引量:13
6
作者 李颖 李志蜀 邓欢 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第5期1095-1099,共5页
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了... 本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现. 展开更多
关键词 中文分词 搜索引擎 lucene 正向最大匹配算法
原文传递
基于Lucene的中英文语言分析器的设计与实现 被引量:1
7
作者 马凤娟 吴鹏飞 《图书情报工作》 CSSCI 北大核心 2009年第15期118-121,共4页
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。
关键词 搜索引擎 lucene 中英文分词 正向最大匹配算法 语言分析器
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部