期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于MMSeg分词的多部主题词表联合标注研究与实现
1
作者 陈晓燕 《绍兴文理学院学报》 2015年第7期39-44,共6页
为了解决多部主题词表联合标注中标注词条数量大、子串较多等问题,本文提出了基于MMSeg分词的标注方法.采用MMSeg分词算法将待标注文本先切分形成词串再进行标注,并改进了分词词典从而支持子串的标注,保证了较高的召回率.还就相关内容... 为了解决多部主题词表联合标注中标注词条数量大、子串较多等问题,本文提出了基于MMSeg分词的标注方法.采用MMSeg分词算法将待标注文本先切分形成词串再进行标注,并改进了分词词典从而支持子串的标注,保证了较高的召回率.还就相关内容进行了研究并给出了具体实现.运行结果表明基于MMSeg分词的多部主题词表联合标注在标注速度、召回率和精确率方面均达到了实用要求. 展开更多
关键词 分词词典 mmseg算法 标注 消歧 主题词表
下载PDF
词典与统计方法结合的中文分词模型研究及应用 被引量:18
2
作者 蒋建洪 赵嵩正 罗玫 《计算机工程与设计》 CSCD 北大核心 2012年第1期387-391,共5页
为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和... 为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和互信息的算法应用于分词处理过程中,设计并实现了一个快速、准确度高的分词模型,通过测试结果表明,该模型能够较好地解决分词的速度与效率问题。 展开更多
关键词 分词 mmseg算法 互信息 词典 统计
下载PDF
海量文档桌面全文检索终端设计与实现 被引量:1
3
作者 张俊飞 《现代计算机》 2018年第22期85-90,共6页
信息化的发展推动大数据时代的到来,高校数字化教学和无纸化办公将面临海量非结构化数字文档。针对海量本地文档检索问题,采用Swing、Lucene、Tika、MMSeg算法等技术,设计和研发一种全文检索桌面终端软件。该终端具有友好的用户体验,可... 信息化的发展推动大数据时代的到来,高校数字化教学和无纸化办公将面临海量非结构化数字文档。针对海量本地文档检索问题,采用Swing、Lucene、Tika、MMSeg算法等技术,设计和研发一种全文检索桌面终端软件。该终端具有友好的用户体验,可以针对不同格式文档进行解析,实现基于词典的分词操作,利用Swing配套组件实现查询结果以网页形式显示在终端程序中,并对结果数据进行高亮处理。后期的实验数据验证终端的可使用性,其具有一定的应用价值。 展开更多
关键词 全文检索 LUCENE Tika mmseg算法 SWING
下载PDF
基于Lucene的中文分词器的改进与实现 被引量:1
4
作者 罗惠峰 郭淑琴 《微型机与应用》 2015年第11期76-78,82,共4页
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结... Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 全文检索 中文分词器 文本解析器 最大匹配算法(mmseg)
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部