期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于MMSEG算法的中文分词技术的研究与设计 被引量:5
1
作者 张中耀 葛万成 +1 位作者 汪亮友 林佳燕 《信息技术》 2016年第6期17-20,共4页
文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,... 文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,该方法可以更快更好地实现中文分词功能,可有效提高全文检索中的中文检索的能力。 展开更多
关键词 中文分词 正向最大匹配算法 mmseg LUCENE
下载PDF
基于Lucene和MMSEG算法的中文分词器研究 被引量:1
2
作者 邓晓枫 蒋廷耀 《信息通信》 2017年第9期146-148,共3页
Lucene开放源代码的特性让很多人使用它来构建具体的全文检索应用,然而对于中文检索来说,Lucene自带的中文分词器对中文的分词处理并不理想,其分词的正确率和分词速度以及对歧义词处理等方面不能满足大多数应用的需求,因此有必要为Lucen... Lucene开放源代码的特性让很多人使用它来构建具体的全文检索应用,然而对于中文检索来说,Lucene自带的中文分词器对中文的分词处理并不理想,其分词的正确率和分词速度以及对歧义词处理等方面不能满足大多数应用的需求,因此有必要为Lucene引入第三方分词器来弥补自带分词功能的缺陷。文章对采用mmseg算法的2种分词器mmseg4j和Jcseg在分词指标、索引创建的时间消耗方面进行测试比较,评估分析测试结果,结合应用场景为Lucene选择一个合适的分词器来加强中文分词功能。 展开更多
关键词 LUCENE mmseg 中文分词器 索引
下载PDF
基于MMSeg分词的多部主题词表联合标注研究与实现
3
作者 陈晓燕 《绍兴文理学院学报》 2015年第7期39-44,共6页
为了解决多部主题词表联合标注中标注词条数量大、子串较多等问题,本文提出了基于MMSeg分词的标注方法.采用MMSeg分词算法将待标注文本先切分形成词串再进行标注,并改进了分词词典从而支持子串的标注,保证了较高的召回率.还就相关内容... 为了解决多部主题词表联合标注中标注词条数量大、子串较多等问题,本文提出了基于MMSeg分词的标注方法.采用MMSeg分词算法将待标注文本先切分形成词串再进行标注,并改进了分词词典从而支持子串的标注,保证了较高的召回率.还就相关内容进行了研究并给出了具体实现.运行结果表明基于MMSeg分词的多部主题词表联合标注在标注速度、召回率和精确率方面均达到了实用要求. 展开更多
关键词 分词词典 mmseg算法 标注 消歧 主题词表
下载PDF
改进的Mmseg4j分词算法在农作物病虫害搜索中的应用 被引量:1
4
作者 刘鑫童 刘立波 《宁夏工程技术》 CAS 2017年第3期229-232,共4页
针对农作物病虫害信息搜索中查询信息不准确、查询效率偏低的问题,基于Lucene 3.6的搜索架构,以Simple方式处理字符串,通过HashMap构建同义词词典,采用单链表结构优化内存空间,对Mmseg4j分词算法进行改进,完成对蝴蝶兰、红枣和马铃薯等... 针对农作物病虫害信息搜索中查询信息不准确、查询效率偏低的问题,基于Lucene 3.6的搜索架构,以Simple方式处理字符串,通过HashMap构建同义词词典,采用单链表结构优化内存空间,对Mmseg4j分词算法进行改进,完成对蝴蝶兰、红枣和马铃薯等农作物病虫害的全文搜索。实验结果表明,搜索准确率达到82.3%,Java虚拟机内存空间减少1/3,实用价值较好。 展开更多
关键词 mmseg4j分词 LUCENE HashMap
下载PDF
MMSEG算法与统计方法结合的中文分词模型研究
5
作者 邓海剑 胡琦伟 《岭南学术研究》 2017年第1期66-69,共4页
基于字符串匹配的分词模型研究,提出一种结合MMSEG算法和简化的分词统计方法的分词模型,并以MMSEG算法作为基线方法,在Bakeo糯料上进行实验对比。结果表明,改进的分词模型降低了分词过程的时间复杂度,获得了较高的召回率(recall)... 基于字符串匹配的分词模型研究,提出一种结合MMSEG算法和简化的分词统计方法的分词模型,并以MMSEG算法作为基线方法,在Bakeo糯料上进行实验对比。结果表明,改进的分词模型降低了分词过程的时间复杂度,获得了较高的召回率(recall)和F—measure值。 展开更多
关键词 分词 mmseg 统计与规则 未登陆词
下载PDF
词典与统计方法结合的中文分词模型研究及应用 被引量:18
6
作者 蒋建洪 赵嵩正 罗玫 《计算机工程与设计》 CSCD 北大核心 2012年第1期387-391,共5页
为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和... 为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和互信息的算法应用于分词处理过程中,设计并实现了一个快速、准确度高的分词模型,通过测试结果表明,该模型能够较好地解决分词的速度与效率问题。 展开更多
关键词 分词 mmseg算法 互信息 词典 统计
下载PDF
实现Lucene接口的中文分词器的比较研究 被引量:11
7
作者 黄翼彪 《科技信息》 2012年第12期246-247,共2页
Lucene自身提供的StandardAnalyzer虽然已经具备中文分词的功能,但是其分词正确率和切分速度不能够满足大多数应用的需要。为更好处理中文信息,必须引用独立的外部中文分词器。基于这种需求,文章对ChineseAnalyzer、CJKAnalyzer、IKAnal... Lucene自身提供的StandardAnalyzer虽然已经具备中文分词的功能,但是其分词正确率和切分速度不能够满足大多数应用的需要。为更好处理中文信息,必须引用独立的外部中文分词器。基于这种需求,文章对ChineseAnalyzer、CJKAnalyzer、IKAnalyzer、mmseg4j、imdict-chinese-analyzer和庖丁解牛6种主流中文分词器分别进行测试,并根据测试结果对分词效果做出评估。 展开更多
关键词 LUCENE 中文分词 分词器 mmseg4j 庖丁解牛
下载PDF
基于SQLite的中文全文检索研究与实现 被引量:2
8
作者 陈华政 陈剑 《软件导刊》 2013年第7期138-140,共3页
随着手机、平板电脑等移动智能设备的快速发展,曾经在PC上运行的各种应用系统需要同时在移动智能设备上实现,从而带动了移动智能设备上的数据存储、数据检索等方面的需求。SQLite作为轻量的嵌入型数据库具有更好的实时性、系统开销小、... 随着手机、平板电脑等移动智能设备的快速发展,曾经在PC上运行的各种应用系统需要同时在移动智能设备上实现,从而带动了移动智能设备上的数据存储、数据检索等方面的需求。SQLite作为轻量的嵌入型数据库具有更好的实时性、系统开销小、底层控制能力强等优点。探讨并实现了使用SQLite作为数据存储方案并实现中文全文检索的原理与实现方案,为在移动智能设备上基于SQLite的中文信息检索应用探索了一条新途径。 展开更多
关键词 中文全文检索 SQLITE mmseg
下载PDF
一种改进的最大匹配分词算法研究 被引量:2
9
作者 吴亮 《现代商贸工业》 2010年第9期297-298,共2页
通过对最大匹配分词算法做出改进,解决了最大匹配分词算法所不能解决的一些问题,并得出较准确的粗分结果。
关键词 mmseg 最大匹配 分词
下载PDF
海量文档桌面全文检索终端设计与实现 被引量:1
10
作者 张俊飞 《现代计算机》 2018年第22期85-90,共6页
信息化的发展推动大数据时代的到来,高校数字化教学和无纸化办公将面临海量非结构化数字文档。针对海量本地文档检索问题,采用Swing、Lucene、Tika、MMSeg算法等技术,设计和研发一种全文检索桌面终端软件。该终端具有友好的用户体验,可... 信息化的发展推动大数据时代的到来,高校数字化教学和无纸化办公将面临海量非结构化数字文档。针对海量本地文档检索问题,采用Swing、Lucene、Tika、MMSeg算法等技术,设计和研发一种全文检索桌面终端软件。该终端具有友好的用户体验,可以针对不同格式文档进行解析,实现基于词典的分词操作,利用Swing配套组件实现查询结果以网页形式显示在终端程序中,并对结果数据进行高亮处理。后期的实验数据验证终端的可使用性,其具有一定的应用价值。 展开更多
关键词 全文检索 LUCENE Tika mmseg算法 SWING
下载PDF
基于Lucene的中文分词器的改进与实现 被引量:1
11
作者 罗惠峰 郭淑琴 《微型机与应用》 2015年第11期76-78,82,共4页
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结... Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 全文检索 中文分词器 文本解析器 最大匹配算法(mmseg)
下载PDF
基于Hadoop的电商评价分类检索
12
作者 李丁丁 王兴芬 黄兵 《北京信息科技大学学报(自然科学版)》 2015年第4期85-88,共4页
针对电商评价中分类检索的需求,在Hadoop平台下,基于MapReduce并行编程模型,实现查看大数据高效的评价信息。特别是针对不同情感的评价,通过使用mmseg4j分词器进行分类,再利用Solr索引来实现检索。实验结果表明,提出的电商评价分类检索... 针对电商评价中分类检索的需求,在Hadoop平台下,基于MapReduce并行编程模型,实现查看大数据高效的评价信息。特别是针对不同情感的评价,通过使用mmseg4j分词器进行分类,再利用Solr索引来实现检索。实验结果表明,提出的电商评价分类检索系统可以显著区分出不同商品评价中的好、中、差评。 展开更多
关键词 电商评价 分类检索 MAPREDUCE mmseg4j
下载PDF
基于Xapian的空间数据全文检索模式研究
13
作者 姬英杰 陈涛 +1 位作者 赵裴 许剑 《测绘科学与工程》 2018年第3期73-78,共6页
针对传统关系型数据库检索海量空间数据模式单一、效率低下等问题,开展海量空间数据与全文检索技术结合方式探索,进行选型分析,并设计了一种MMSEG中文分词与Xapian全文检索引擎相结合的空间数据组织与检索方法,基于该模式实现了海量... 针对传统关系型数据库检索海量空间数据模式单一、效率低下等问题,开展海量空间数据与全文检索技术结合方式探索,进行选型分析,并设计了一种MMSEG中文分词与Xapian全文检索引擎相结合的空间数据组织与检索方法,基于该模式实现了海量POI(Point of Interest)数据组织与检索原型系统;最后,通过真实POI数据验证了模型的合理性及检索效率。 展开更多
关键词 mmseg Xapian 全文检索 中文分词 POI
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部