题名 一种改进的中文分词正向最大匹配算法
被引量:41
1
作者
王瑞雷
栾静
潘晓花
卢修配
机构
新疆师范大学计算机科学技术学院
出处
《计算机应用与软件》
CSCD
2011年第3期195-197,共3页
基金
新疆师范大学研究生科技创新活动基金(20091208)
文摘
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。
关键词
中文分词
分词词典
正向最大匹配 算法
Keywords
Chinese word segmentation Word bank Forward maximum matching algorithm
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 改进的正向最大匹配分词算法
被引量:11
2
作者
张彩琴
袁健
机构
上海理工大学光电信息与计算机工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2010年第11期2595-2597,2633,共4页
文摘
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。
关键词
正向最大匹配 算法
交集型歧义
预处理
互信息
分词碎片
Keywords
maximum matching method
crossing ambiguity
pretreatment
mutual information
word fragments
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于改进Trie树结构的正向最大匹配算法
被引量:11
3
作者
熊志斌
朱剑锋
机构
琼州学院电子信息工程学院
出处
《计算机应用与软件》
CSCD
北大核心
2014年第5期276-278,共3页
基金
海南省教育厅基金项目(Hjkj201137)
三亚市院地合作项目(2011YD19)
文摘
提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。
关键词
中文信息处理
分词
正向最大匹配 算法
Keywords
Chinese information processing Word segmentation Forward maximum matching algorithm
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 正向最大匹配法在中文分词技术中的应用
被引量:18
4
作者
胡锡衡
机构
鞍山师范学院数学系
出处
《鞍山师范学院学报》
2008年第2期42-45,共4页
文摘
分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示.
关键词
信息处理
分词
文档
正向最大匹配
文本结构化
Keywords
Information Processing
Segmentation
Documentation
MM ( Maximum Matching)
Structured text
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于正向最大匹配算法的电力两票安全识别
被引量:9
5
作者
徐楠楠
王东风
韩璞
机构
华北电力大学河北省发电过程仿真与优化控制重点实验室
出处
《计算机仿真》
CSCD
北大核心
2014年第1期145-148,355,共5页
文摘
为了让计算机具有处理甚至理解自然语言的能力,人们发明了很多自然语言语义分析理论。但是应用在电力系统工作票和操作票的领域中还很少。在中文分词的理论基础上利用正向最大匹配算法,针对电厂两票安全措施的语句进行自动识别,并分析了两票安全措施语句的语意。结果表明基于两票填写内容=动作词+设备名称词+状态词这种表示结构下,计算机能够很好的识别和理解电厂两票安全措施。这样计算机系统就能够对电力两票知识进一步的计算和推理,从而为深度人工智能开票提供了广泛的应用前景。
关键词
自然语言理解
中文分词
正向最大匹配
电力两票系统
Keywords
Natural language understanding
Chinese word segmentation
forward maximum matching algorithm
two-ticket system
分类号
TK16
[动力工程及工程热物理—热能工程]
题名 一种结合正向最大匹配法和互信息的中文分词算法
6
作者
桑书娟
王庆喜
机构
安阳工学院
出处
《计算机光盘软件与应用》
2012年第7期30-30,共1页
文摘
中文分词是文本过滤的首要的基础性工作,也是智能化中文信息处理的关键。本文提出了一种结合正向最大匹配法和互信息的中文分词算法。实验结果说明,该算法能在一定程度上提高文本的分类性能。
关键词
中文分词
正向最大匹配 法
互信息
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于正向最大匹配算法的密码破译
被引量:1
7
作者
吴兴蛟
吴晟
机构
昆明理工大学信息工程与自动化学院
出处
《计算机与数字工程》
2016年第5期924-928,965,共6页
文摘
论文运用基于正向最大匹配算法的破译方式,进行分词。同时基于单词频率进行差错更改及控制。其中主要步骤如下:1)编制符合要求的密文;2)进行替换解密;3)基于词库分词,同时进行差错仿真;4)构建句子。首先基于编码原理进行密文编写,同时进行随机差错制造。最后将分析后的结果存入文本,处理之后得到部分与原文进行对比,发现其错误率较低。故而所得模型其可靠度较高。文章主要工作在于构建一个较为可靠的具有较强普适性的基于字符频率的最大正向分词模型。同时在此基础上建立其余模型共同解决问题。
关键词
英文分词
字符频率
字典优化
替换解密
正向最大匹配
Keywords
English word segmentation
character frequency
dictionary optimization
replace decryption
positive maximum matching
分类号
TP309.7
[自动化与计算机技术—计算机系统结构]
题名 基于正向最大匹配算法的问答应用与图谱构建
被引量:1
8
作者
焦自程
机构
西藏大学
出处
《信息记录材料》
2022年第4期217-220,共4页
文摘
正向最大匹配算法以其更高的准确率在众多应用中取得不错的效果。而目前正向最大匹配算法在问答应用方面较少,提出一种基于正向最大匹配算法在问答系统的应用,系统问答功能的实现将以正向最大匹配算法为基础,并在原本基础上加入同义词词典,同义词词典的加入会使得问答系统的问答功能更加可靠、准确,增加系统的容错率。首先,分析本系统整体知识图谱的具体设计过程,随后指出图谱中各模块的功能;其次,着重讲解利用正向最大匹配算法实现问答功能的具体内容;最后,将是否加入同义词作出实验分析,验证同义词加入的可靠性和准确性。
关键词
正向最大匹配 算法
同义词
问答
图谱
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
题名 最大正向匹配分词算法的VC++实现
被引量:1
9
作者
王希杰
机构
安阳师范学院
出处
《福建电脑》
2011年第4期72-72,71,共2页
文摘
做为最直接的分词思路,最大匹配具有直观、实现简单等优点,但也存在着精度低的致命缺点。本文对正向匹配算法做了实现和分析,为该方法的进一步改进打下了基础。
关键词
中文分词
正向最大匹配
MFC
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于字符串匹配的中文分词算法的研究
被引量:19
10
作者
常建秋
沈炜
机构
浙江理工大学信息学院
出处
《工业控制计算机》
2016年第2期115-116,119,共3页
文摘
伴随着信息技术的日新月异,互联网上的信息呈现出爆炸式的增长,为了满足人们快速而准确地获取信息,Lucene检索技术便应运而生。由于Lucene自带的分析器对中文分词效果不明显,切分出很多无用词,而且切分出的词失去原有意义。针对此问题,在基于字符串的正向最大匹配分词方法的基础上,提出改进的方法,从而提高分词的准确性。最后,通过实验验证改进后的方法对分词的效果。
关键词
LUCENE
中文分词
正向最大匹配 算法
Keywords
Lucene
Chinese word segmentation
forward maximum matching algorithm
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 改进的基于词典的中文分词方法
被引量:40
11
作者
莫建文
郑阳
首照宇
张顺岚
机构
桂林电子科技大学信息与通信学院
出处
《计算机工程与设计》
CSCD
北大核心
2013年第5期1802-1807,共6页
文摘
为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法。该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词算法中的歧义问题。实验结果表明,该方法在一定程度上提高了中文词语切分的准确率,同时大大缩短了分词时间。
关键词
中文分词
词典
哈希结构
正向最大匹配 算法
歧义
Keywords
Chinese segmentation
dictionary
hash structure
positive maximal matching algorithm
ambiguity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 具有三级索引词库结构的中文分词方法研究
被引量:16
12
作者
肖红
许少华
李欣
机构
大庆石油学院计算机科学系
出处
《计算机应用研究》
CSCD
北大核心
2006年第8期49-51,共3页
基金
国家自然科学基金资助项目(60473051)
文摘
提出了一种分组并具有三级索引结构的词库组织体系,给出了合适的索引密度间隔;针对系统基本词库的扩充问题,考虑了一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法。大量仿真实验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。
关键词
中文切词
正向最大匹配
词库
索引密度
全文检索
Keywords
Chinese Word Segmentation
Forward Maximum Method
Words Library
Index Density
Full-text Retrieval
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于Lucene的中文字典分词模块的设计与实现
被引量:27
13
作者
向晖
郭一平
王亮
机构
华中科技大学控制科学与工程系
华中科技大学图书馆
出处
《现代图书情报技术》
CSSCI
北大核心
2006年第8期46-50,共5页
文摘
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。
关键词
搜索引擎
LUCENE
中文分词
正向最大匹配 算法
Keywords
Search engine Lucene Chinese words segmentation Forwards maximum match algorithm
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 中文分词词典结构的研究与改进
被引量:12
14
作者
叶继平
张桂珠
机构
江南大学物联网工程学院
出处
《计算机工程与应用》
CSCD
2012年第23期139-142,共4页
基金
国家自然科学基金项目(No.60665001)
江南大学自主科研计划(No.JUSRP30909)
文摘
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。
关键词
中文分词
正向最大匹配
词典
三级索引
Keywords
Chinese word segmentation
positive matching method
word dictionary
three-level index
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 关于搜索引擎的中文分词与页面排序的研究
被引量:4
15
作者
王锡钢
王正
陈虎
机构
辽宁科技大学软件学院辽宁鞍山
出处
《计算机应用与软件》
CSCD
北大核心
2013年第9期211-214,共4页
文摘
从搜索流程的分词和页面排序出发,由于中文分词比较复杂,鉴于正向最大分词算法和逆向最大分词算法的优缺点,提出基于正向最大和逆向最大匹配的双向匹配算法,该算法在一定程度提高了分词的准确性。页面排序也是影响用户搜索效率的一个重要因素,而网页相关度和网页的链接都是直接影响网页权值的重要因素,因而提出一种基于网页相关性的PageRank算法。新的页面排序算法既防治了页面漂移的可能性,也防治了全部依赖网页相关性的排序结果。
关键词
正向最大匹配 逆向最大匹配 PageRank
VSM
Keywords
Forward maximum matching Reverse maximum matching PageRank VSM
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 一种基于词典的中文分词法的设计与实现
被引量:5
16
作者
周军
王艳红
机构
南通航运职业技术学院信息技术系
出处
《黑龙江科技信息》
2008年第25期70-70,264,共2页
文摘
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。
关键词
中文分词
词库索引
正向最大匹配 法
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于DRIS系统中的中文自动分词模块设计与实现
被引量:1
17
作者
张昭楠
马亚蕾
机构
陕西职业技术学院
出处
《电子设计工程》
2016年第14期158-160,共3页
文摘
随着信息检索技术越来越受到人们的重视,其中的中文自动分词技术就显得越来越重要。计算机通过对文本中的词语进行识别与处理,直接将结果传送给搜索引擎进行检索。文中在域内资源整合系统(DRIS)的基础上,设计并开发了一个全新的中文自动分词模块。通过算法的比对,选择了正向匹配算法作为该模块的基本算法,对其文件结构,中文词典初始化及识别处理过程做出详细介绍。经后期使用后可比较出该模块在检索效率与服务质量上都有了很大程度上的提高,达到了设计要求。
关键词
DRIS系统
中文自动分词
搜索引擎
正向最大匹配 法
Keywords
DRIS
Chinese words auto-segmentation
search engine
forward maximum match method
分类号
TN99
[电子电信—信号与信息处理]
题名 基于Delphi的中文分词设计
被引量:2
18
作者
刘建培
机构
广东商学院教育技术中心
出处
《计算机系统应用》
2009年第3期156-160,共5页
文摘
词是语言中最小的能够独立活动的有意义的语言成分,是信息处理的基本单位。词频统计、语音识别、字符识别、自动分类、机器翻译、信息检索、信息抽取等方面的研究,也必须首先分词。在这些应用和研究领域,没有准确高效的分词策略,汉语的进一步分析必将受到严重影响。本文研究用DeIphi设计中文分词。
关键词
中文分词
DELPHI
词频
正向最大匹配
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 中文分词算法在地址标准化清洗中的应用
被引量:2
19
作者
姚路
机构
福州市勘测院
出处
《中国高新科技》
2020年第20期126-128,共3页
基金
基于大数据挖掘的智慧城市标准地址管理与应用关键技术研究及推广(项目编号:2018Y3001)。
文摘
文章通过研究地址数据的特点,设计中文地址标准化分类模型,并基于词典的中文分词技术,设计一套地址标准化清洗流程。通过中文分词算法在地址标准化清洗中的应用,有助于多源异构地址数据的融合处理,可为城市管理部门提供高可用的城市标准地址信息服务。
关键词
中文分词
地址标准化
数据清洗
正向最大匹配 .
Keywords
chinese word segmentation
address standardization
data cleaning:positive maximum matching
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于规则和词共现的中文电子病历否定检出
20
作者
张远鹏
王理
董建成
机构
南通大学医学院医学信息学系
出处
《计算机应用与软件》
CSCD
2015年第3期50-52,共3页
基金
国家自然科学基金项目(81271668)
南通大学自然科学基金项目(11Z010)
文摘
对于中文电子病历文本中的否定术语的检出,目前有很多方法,基于规则的否定检出是比较常用的一种算法。但是该方法无法解决由于标点录入错误造成假阳性的问题。因此,在基于规则算法的基础上,提出一种基于词共现的否定检出算法,通过收集200份中文电子病历约150 865个汉字字符进行实验,新方法的阴性预测值比基于规则的算法提高了7.85%。所以,基于规则和词共现的否定检出算法能够很好地降低由于标点录入错误而出现假阳性术语的概率。
关键词
词共现
正向最大匹配
互信息
否定检出
Keywords
Word co-occurrence Forward maximum matching Mutual information Negation detection
分类号
TP3
[自动化与计算机技术—计算机科学与技术]