期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于MMSEG算法的中文分词技术的研究与设计 被引量:5
1
作者 张中耀 葛万成 +1 位作者 汪亮友 林佳燕 《信息技术》 2016年第6期17-20,共4页
文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,... 文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,该方法可以更快更好地实现中文分词功能,可有效提高全文检索中的中文检索的能力。 展开更多
关键词 中文分词 正向最大匹配算法 mmseg LUCENE
下载PDF
基于MMSeg分词的多部主题词表联合标注研究与实现
2
作者 陈晓燕 《绍兴文理学院学报》 2015年第7期39-44,共6页
为了解决多部主题词表联合标注中标注词条数量大、子串较多等问题,本文提出了基于MMSeg分词的标注方法.采用MMSeg分词算法将待标注文本先切分形成词串再进行标注,并改进了分词词典从而支持子串的标注,保证了较高的召回率.还就相关内容... 为了解决多部主题词表联合标注中标注词条数量大、子串较多等问题,本文提出了基于MMSeg分词的标注方法.采用MMSeg分词算法将待标注文本先切分形成词串再进行标注,并改进了分词词典从而支持子串的标注,保证了较高的召回率.还就相关内容进行了研究并给出了具体实现.运行结果表明基于MMSeg分词的多部主题词表联合标注在标注速度、召回率和精确率方面均达到了实用要求. 展开更多
关键词 分词词典 mmseg算法 标注 消歧 主题词表
下载PDF
词典与统计方法结合的中文分词模型研究及应用 被引量:18
3
作者 蒋建洪 赵嵩正 罗玫 《计算机工程与设计》 CSCD 北大核心 2012年第1期387-391,共5页
为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和... 为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和互信息的算法应用于分词处理过程中,设计并实现了一个快速、准确度高的分词模型,通过测试结果表明,该模型能够较好地解决分词的速度与效率问题。 展开更多
关键词 分词 mmseg算法 互信息 词典 统计
下载PDF
海量文档桌面全文检索终端设计与实现 被引量:1
4
作者 张俊飞 《现代计算机》 2018年第22期85-90,共6页
信息化的发展推动大数据时代的到来,高校数字化教学和无纸化办公将面临海量非结构化数字文档。针对海量本地文档检索问题,采用Swing、Lucene、Tika、MMSeg算法等技术,设计和研发一种全文检索桌面终端软件。该终端具有友好的用户体验,可... 信息化的发展推动大数据时代的到来,高校数字化教学和无纸化办公将面临海量非结构化数字文档。针对海量本地文档检索问题,采用Swing、Lucene、Tika、MMSeg算法等技术,设计和研发一种全文检索桌面终端软件。该终端具有友好的用户体验,可以针对不同格式文档进行解析,实现基于词典的分词操作,利用Swing配套组件实现查询结果以网页形式显示在终端程序中,并对结果数据进行高亮处理。后期的实验数据验证终端的可使用性,其具有一定的应用价值。 展开更多
关键词 全文检索 LUCENE Tika mmseg算法 SWING
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部