题名 一种改进的中文分词正向最大匹配算法
被引量:41
1
作者
王瑞雷
栾静
潘晓花
卢修配
机构
新疆师范大学计算机科学技术学院
出处
《计算机应用与软件》
CSCD
2011年第3期195-197,共3页
基金
新疆师范大学研究生科技创新活动基金(20091208)
文摘
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。
关键词
中文分词
分词词典
正向最大匹配算法
Keywords
chinese word segmentation word bank forward maximum matching algorithm
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 基于Lucene的中文字典分词模块的设计与实现
被引量:27
2
作者
向晖
郭一平
王亮
机构
华中科技大学控制科学与工程系
华中科技大学图书馆
出处
《现代图书情报技术》
CSSCI
北大核心
2006年第8期46-50,共5页
文摘
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。
关键词
搜索引擎
LUCENE
中文分词
正向最大匹配算法
Keywords
Search engine Lucene chinese word s segmentation forward s maximum match algorithm
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 综合最大匹配和歧义检测的中文分词粗分方法
被引量:3
3
作者
李国和
刘光胜
秦波波
吴卫江
李洪奇
机构
中国石油大学地球物理与信息工程学院
中国石油大学(北京)油气资源与探测国家重点实验室
石大兆信数字身份管理与物联网技术研究院
出处
《计算机工程与应用》
CSCD
2012年第14期139-142,167,共5页
基金
国家自然科学基金(No.60473125)
国家高新技术研究发展计划(No.2009AA062802)
+1 种基金
中国石油(CNPC)石油科技中青年创新基金(No.05E7013)
国家重大专项子课题(No.G5800-08-ZS-WX)
文摘
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。
关键词
中文分词
粗分
最大匹配算法
全切分算法
歧义检测
Keywords
chinese word segmentation
rough segmentation
maximum match algorithm
omni-segmentation algorithm
ambiguity detection
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于改进Trie树结构的正向最大匹配算法
被引量:11
4
作者
熊志斌
朱剑锋
机构
琼州学院电子信息工程学院
出处
《计算机应用与软件》
CSCD
北大核心
2014年第5期276-278,共3页
基金
海南省教育厅基金项目(Hjkj201137)
三亚市院地合作项目(2011YD19)
文摘
提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。
关键词
中文信息处理
分词
正向最大匹配算法
Keywords
chinese information processing word segmentation forward maximum matching algorithm
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于CRFs边缘概率的中文分词
被引量:19
5
作者
罗彦彦
黄德根
机构
大连理工大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2009年第5期3-8,共6页
基金
国家863高技术资助项目(2006AA012140)
国家自然科学基金资助项目(60673039)
文摘
将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。
关键词
计算机应用
中文信息处理
中文分词
条件随机场(CRFs)
边缘概率
最大向前匹配(FMM)
全局特征
Keywords
computer application
chinese information processing
chinese word segmentation
Conditional Random Fields(CRFs)
Marginal probability
forward maximum matching (FMM)
global feature
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于双哈希结构的整词二分词典机制
被引量:3
6
作者
张贤坤
李亚南
田雪
机构
天津科技大学计算机科学与信息工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第11期3956-3960,共5页
基金
天津市科技型中小企业创新资金基金项目(12ZXCXGX33500)
文摘
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。
关键词
中文分词
词典机制
尾字词典
哈希结构
逆向最大匹配算法
Keywords
chinese word segmentation
dictionary mechanism
last word dictionary~ Hash structure
reverse maximum matching algorithm
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文分词中的正向增字最大匹配算法研究
被引量:7
7
作者
戴上静
石春
吴刚
机构
中国科学技术大学自动化系工业自动化研究所
出处
《微型机与应用》
2014年第17期15-18,共4页
文摘
针对正向最大匹配算法的长词丢失、匹配次数较多、歧义字段处理的准确率较低等问题,基于Trie树词典提出了3种正向增字最大匹配算法,分别使用逐词扫描、尾部折半扫描和尾部减一扫描这3种扫描方式采集歧义字段,并建立了一套歧义处理方法。实验结果表明,该3种算法在分词速度和准确率上均有显著提高,错误率降低到了原算法的三分之一以下。当文本规模大于200 MB时,3种正向增字最大匹配算法的分词速度均比原最大匹配算法提高30%以上。
关键词
中文分词
TRIE树
逐词扫描
正向增字匹配
Keywords
chinese word segmentation
Trie-tree
word matching algorithm
forward increasing maximum matching algorithm
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
题名 基于最大匹配和歧义检测的中文分词粗分方法
被引量:1
8
作者
李国和
刘光胜
吴卫江
孙红军
唐先明
韩宝东
机构
中国石油大学地球物理与信息工程学院
中国石油大学(北京)油气资源与探测国家重点实验室
中国石油化工股份有限公司石油勘探开发研究院信息所
出处
《北京信息科技大学学报(自然科学版)》
2010年第S2期84-88,共5页
基金
国家自然科学基金(60473125)
中国石油(CNPC)石油科技中青年创新基金(5E7013)
国家重大专项子课题(G5800-08-ZS-WX)
文摘
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好效果。
关键词
中文分词
粗分
最大匹配算法
全切分算法
歧义检测
Keywords
chinese word segmentation
rough segmentation
maximum match algorithm
omni-segmentation algorithm
ambiguity detection
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于字符串匹配的中文分词算法的研究
被引量:19
9
作者
常建秋
沈炜
机构
浙江理工大学信息学院
出处
《工业控制计算机》
2016年第2期115-116,119,共3页
文摘
伴随着信息技术的日新月异,互联网上的信息呈现出爆炸式的增长,为了满足人们快速而准确地获取信息,Lucene检索技术便应运而生。由于Lucene自带的分析器对中文分词效果不明显,切分出很多无用词,而且切分出的词失去原有意义。针对此问题,在基于字符串的正向最大匹配分词方法的基础上,提出改进的方法,从而提高分词的准确性。最后,通过实验验证改进后的方法对分词的效果。
关键词
LUCENE
中文分词
正向最大匹配算法
Keywords
Lucene
chinese word segmentation
forward maximum matching algorithm
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 中文分词交叉型歧义消解算法
被引量:2
10
作者
甘蓉
机构
陕西工业职业技术学院汽车工程学院
出处
《西华大学学报(自然科学版)》
CAS
2018年第6期32-36,共5页
文摘
中文分词是自然语言处理的基础。交叉型歧义是提高中文分词精度的瓶颈之一。文章提出一种基于正向、负向最大匹配算法和passive aggressive(PA)算法结合的交叉型歧义消解算法。基于PA算法训练分词模型;利用正向、负向最大匹配算法检测交叉型歧义的位置;把可能出现交叉型歧义的句子或者句子的部分传递给分词模型,解码得到分词结果;最后,把正向、负向最大匹配结果和分词模型解码结果拼接成最终的分词结果。利用PA算法基于2014年2—12月份人民日报数据训练分词模型、2014年1月份人民日报数据作为测试语料进行实验,得到交叉型歧义的准确率、召回率和F-score分别为98. 32%、98. 14%和98. 23%,说明该方法有效可行。
关键词
中文分词
交叉型歧义
最大匹配算法
PA算法
Keywords
chinese word segmentation
cross ambiguity
maximum matching algorithm
passive aggressive algo-rithm
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于DRIS系统中的中文自动分词模块设计与实现
被引量:1
11
作者
张昭楠
马亚蕾
机构
陕西职业技术学院
出处
《电子设计工程》
2016年第14期158-160,共3页
文摘
随着信息检索技术越来越受到人们的重视,其中的中文自动分词技术就显得越来越重要。计算机通过对文本中的词语进行识别与处理,直接将结果传送给搜索引擎进行检索。文中在域内资源整合系统(DRIS)的基础上,设计并开发了一个全新的中文自动分词模块。通过算法的比对,选择了正向匹配算法作为该模块的基本算法,对其文件结构,中文词典初始化及识别处理过程做出详细介绍。经后期使用后可比较出该模块在检索效率与服务质量上都有了很大程度上的提高,达到了设计要求。
关键词
DRIS系统
中文自动分词
搜索引擎
正向最大匹配法
Keywords
DRIS
chinese word s auto-segmentation
search engine
forward maximum match method
分类号
TN99
[电子电信—信号与信息处理]
题名 关于中文分词问题数据结构模型的讨论
12
作者
张青
李大农
机构
黄冈师范学院数学与计算机科学学院
黄冈师范学院物理与电子信息科学学院
出处
《黄冈师范学院学报》
2013年第6期72-76,共5页
基金
湖北省自然科学基金项目(2011CDC028)
湖北省教育厅科研计划重点项目(D20122701)
文摘
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。
关键词
自然语言处理
中文分词
分词网络模型
最大匹配算法
最短路径算法
Keywords
natural language processing
chinese word segmentation
word segmentation network
maximum matching al- gorithm
shortest path algorithm
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 基于正向最大匹配算法的电力两票安全识别
被引量:9
13
作者
徐楠楠
王东风
韩璞
机构
华北电力大学河北省发电过程仿真与优化控制重点实验室
出处
《计算机仿真》
CSCD
北大核心
2014年第1期145-148,355,共5页
文摘
为了让计算机具有处理甚至理解自然语言的能力,人们发明了很多自然语言语义分析理论。但是应用在电力系统工作票和操作票的领域中还很少。在中文分词的理论基础上利用正向最大匹配算法,针对电厂两票安全措施的语句进行自动识别,并分析了两票安全措施语句的语意。结果表明基于两票填写内容=动作词+设备名称词+状态词这种表示结构下,计算机能够很好的识别和理解电厂两票安全措施。这样计算机系统就能够对电力两票知识进一步的计算和推理,从而为深度人工智能开票提供了广泛的应用前景。
关键词
自然语言理解
中文分词
正向最大匹配
电力两票系统
Keywords
Natural language understanding
chinese word segmentation
forward maximum matching algorithm
two-ticket system
分类号
TK16
[动力工程及工程热物理—热能工程]
题名 最大匹配算法在校园网信息提取中的应用
14
作者
胡明
机构
安徽医学高等专科学校基础部
出处
《洛阳师范学院学报》
2015年第8期82-85,共4页
基金
安徽医学高等专科学校校级精品资源共享课基金项目(2012ahyzkc021)
文摘
校园师生通过校园网进行有效的校内外信息搜索,中文分词起到举足轻重的作用.本文通过对中文分词方法的介绍,重点分析了最大匹配算法的优缺点,提出重组正向与逆向相结合的最大匹配算法思路,在校试验中取得了较好的效果.
关键词
中文分词
最大匹配算法
信息提取
Keywords
chinese word segmentation
maximum matching algorithm
information extraction
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于分词匹配的主观题自动评阅技术研究
被引量:4
15
作者
冯光
乔丹丹
常静怡
机构
安阳师范学院教育信息技术与传媒学院
出处
《计算机与现代化》
2013年第3期212-214,219,共4页
基金
安阳师范学院大学生创新基金资助项目(ASCX/2011-Z22)
文摘
目前,计算机自动阅卷系统中,针对简答题、论述题等主观题的自动评阅技术发展尚不成熟。为了解决主观题自动评阅系统中存在的准确度问题,本文采用基于最大正向匹配的中文分词提取技术和关键词匹配技术实现一种性能稳定且准确率较高的主观题自动评阅系统。实验测试表明,本文的主观试题自动评分方法基本可以满足系统设计的需求,是有效可行的方法。
关键词
中文分词
最大正向匹配
主观题
关键字匹配
Keywords
chinese word segmentation
forward maximum matching
subjective questions
keyword matching
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 一种键树结构的中文分词方法
16
作者
熊志斌
机构
琼州学院电子信息工程学院
出处
《电脑编程技巧与维护》
2012年第20期97-99,共3页
基金
海南省教育厅基金项目(Hjkj2011-37)
三亚院地合作项目(2011YD19)
文摘
正向最大匹配算法是中文自动分词一种常用算法。它为词典设计了键树结构,克服了设定初始词长的限制,并用Java实现了算法。
关键词
中文分词
正向最大匹配算法
键树
Keywords
chinese word segmentation
forward maximum matching algorithm
Key tree
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 一种基于Lucene的中文分词的设计与测试
被引量:6
17
作者
王志嘉
薛质
机构
上海交通大学信息安全工程学院
出处
《信息技术》
2010年第12期50-54,共5页
文摘
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能。在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异。对于如何构建一个高效的中文检索系统,提出了一种实现方案。
关键词
中文分词
搜索引擎
LUCENE
正向最大匹配算法
Keywords
chinese word segmentation
search engine
Lucene
forward s maximum match algorithm
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文分词歧义识别算法的优化
被引量:2
18
作者
胡阿明
王卫东
机构
江苏科技大学计算机科学与工程学院
出处
《现代电子技术》
2012年第8期107-109,共3页
文摘
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。
关键词
中文分词
逆向最大匹配算法
歧义识别
算法优化
Keywords
chinese word segmentation
reverse maximum matching algorithm
ambiguity recognition
algorithm optimization
分类号
TN911-34
[电子电信—通信与信息系统]
题名 基于MMSEG算法的中文分词技术的研究与设计
被引量:5
19
作者
张中耀
葛万成
汪亮友
林佳燕
机构
同济大学中德学院
上海中科联芯物联网技术有限公司
出处
《信息技术》
2016年第6期17-20,共4页
基金
上海市科学技术委员会科研项目(14DZ1101400)
同济大学研究生国际交流基金资助项目(201502008)
文摘
文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,该方法可以更快更好地实现中文分词功能,可有效提高全文检索中的中文检索的能力。
关键词
中文分词
正向最大匹配算法
MMSEG
LUCENE
Keywords
chinese word segmentation
forward s maximum match algorithm
MMSEG
Lucene
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 水利水电行业专用中文分词方法研究
被引量:1
20
作者
唐颖复
江新兰
张伟兵
王志璋
缪纶
机构
中国水利水电科学研究院
出处
《水利信息化》
2021年第1期20-25,79,共7页
基金
国家社科基金重点项目(14AZD128)。
文摘
为改善对当前水利水电行业中大量以自然语言文本形式存在的相关资料挖掘不充分和利用率偏低的现状,在分析水利水电行业文本资料数据特点的基础上,构建水利水电行业的基本词典库,并对Jieba分词器进行算法改进,生成一种水利水电行业专用中文新分词方法,并利用新分词方法对1988-2007年的全国水利工作会议报告进行分析。分析结果表明:提出的新分词方法可以准确地进行语句切分,有利于相关行业研究人员从大量现存文本资料中挖掘出更多潜在的高价值信息。
关键词
中文分词
Jieba分词
算法改进
水利水电行业
专用
正向匹配法
水利工作会议
Keywords
chinese word segmentation
Jieba word segmentation
algorithm improvement
water conservancy and hydropower industry
exclusive use
forward matching
national water conservancy work conference
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]