-
题名基于Hash结构的逆向最大匹配分词算法的改进
被引量:26
- 1
-
-
作者
丁振国
张卓
黎靖
-
机构
西安电子科技大学计算机学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第12期3208-3211,3265,共5页
-
基金
国家863高技术研究发展计划基金项目(2004AA1Z2520)
军队网络互联与信息安全策略研究基金项目(2006QB1069)
-
文摘
分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM)。该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义。实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高。
-
关键词
中文分词
哈希结构
逆向最大匹配算法
分词词典
消除歧义
-
Keywords
Chinese segmentation
hash structure
reverse directional maximum match method
dictionary mechanism
dispel ambiguity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的逆向匹配快速切分算法
- 2
-
-
作者
李娟
周贤善
-
机构
长江大学计算机科学学院
-
出处
《信息系统工程》
2010年第2期133-134,142,共3页
-
文摘
在中文切分算法设计上,好的算法一般要注重两个方面,一个是提高切分精度,另一个是提高切分速度。本文在逆向最大匹配的算法切分基础上,结合临近匹配算法在中文切分速度方面的优势,提出了一种逆向匹配快速切分算法。此算法由于使用了索引排序查找,所以在速度上比一般的全库扫描更快;在切分精度上,根据汉语语句中心语偏后的特点,采用了逆序匹配,可以更进一步提高切分精度。并通过在综合语料库中的语料上的分析,交集型歧义的自动消解上有着很好的优势。
-
关键词
中文自动分词
逆向最大匹配算法
临近匹配算法
改进的逆向匹配快速切分算法
交集型歧义消解
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的长词优先逆向最大匹配分词消歧策略
被引量:1
- 3
-
-
作者
田占霄
韩宪忠
王克俭
-
机构
河北农业大学信息科学与技术学院
-
出处
《河北农业大学学报》
CAS
CSCD
北大核心
2009年第4期100-102,107,共4页
-
基金
河北省科学技术研究与发展计划项目(07213512)
-
文摘
为提高逆向最大匹配算法的分词精度,本研究利用词频阙值,单字函数等方法取得了较好的消歧效果。实验结果表明:该分词算法既能遵循长词优先的原则,又能进一步识别和消除覆盖歧义。改进的RMM不仅在速度上仍保持较大优势而且在分词准确率上有了进一步的提高,对使用机械分词算法的中小型搜索引擎在提高分词精度方面具有一定的实用价值。
-
关键词
中文分词
逆向最大匹配算法
单字率
词频
-
Keywords
chinese word segmentation
RMM
rate of chinese character
term frequency
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名网络舆情算法的研究与应用
- 4
-
-
作者
米晓萍
张建峰
-
机构
山西大学工程学院计算机工程系
山西省太原市电子研究设计院
-
出处
《计算机光盘软件与应用》
2012年第22期5-7,共3页
-
文摘
随着互联网的飞速发展,网络舆情的重要性毋庸置疑,目前解决网络舆情的算法有很多。本文对一些业界公认的实用算法进行了研究,并将这些算法应用到基于"云"平台,采用垂直搜索引擎进行网络舆情的抓取、分析,智能聚合系统对抓取来的舆情进行内容分析,归类的全面、高效的网络舆情监控系统中。
-
关键词
正向最大匹配算法
逆向最大匹配算法
K-MEANS聚类算法
朴素贝叶斯算法
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Hash结构词典的逆向回溯中文分词技术研究
被引量:5
- 5
-
-
作者
梁桢
李禹生
-
机构
武汉工业学院计算机与信息工程系
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第23期5158-5160,F0003,共4页
-
基金
湖北省教育厅科研基金项目(D200618003)
-
文摘
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。
-
关键词
中文分词
哈希结构
尾字词典
逆向最大匹配算法
分词歧义
逆向回溯算法
-
Keywords
Chinese segmentation
Hash structure
last word dictionary
reverse maximummatchingmethod
segmentation ambiguity
reverse backtracking method
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种中文地址知识库支撑的中文地址分词算法
被引量:9
- 6
-
-
作者
赵成
李滨
-
机构
信息工程大学
河南工业大学信息科学与工程学院
-
出处
《测绘科学技术学报》
CSCD
北大核心
2017年第6期639-643,648,共6页
-
基金
河南省科技攻关项目(162102310612)
河南省教育厅科学技术重点研究项目(15A420004)
-
文摘
针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅在正确率和召回率等指标上优于传统算法,更提出了一种用于解决未登录地址名词识别问题的新方法。
-
关键词
中文地址
中文地址知识库
中文地址分词
逆向最大匹配算法
未登录地址名词
-
Keywords
Chinese address
Chinese address knowledge bases
Chinese address segmentation
reverse maximum matching algorithm
unregistered address nouns
-
分类号
P281
[天文地球—地图制图学与地理信息工程]
-
-
题名中文分词歧义识别算法的优化
被引量:2
- 7
-
-
作者
胡阿明
王卫东
-
机构
江苏科技大学计算机科学与工程学院
-
出处
《现代电子技术》
2012年第8期107-109,共3页
-
文摘
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。
-
关键词
中文分词
逆向最大匹配算法
歧义识别
算法优化
-
Keywords
Chinese word segmentation
reverse maximum matching algorithm
ambiguity recognition
algorithm optimization
-
分类号
TN911-34
[电子电信—通信与信息系统]
-
-
题名基于预训练模型的中文电子病历实体识别
被引量:1
- 8
-
-
作者
李晓林
胡泽荣
-
机构
武汉工程大学计算机科学与工程学院
-
出处
《计算机工程与设计》
北大核心
2023年第2期535-540,共6页
-
基金
十三五国家重点研发计划课题基金项目(2017YFB0503701)
湖北省技术创新专项基金项目(2019AAA045)
中央引导地方科技发展专项基金项目(2018ZYYD059)。
-
文摘
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。
-
关键词
中文电子病历
命名实体识别
预训练模型
标注歧义
注意力机制
逆向最大匹配算法
医疗实体字典
-
Keywords
Chinese electronic medical record
named entity recognition
pre-training model
label ambiguity
attention mechanism
reverse maximum matching algorithm
medical entity dictionary
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于条件随机场的中文领域分词研究
被引量:14
- 9
-
-
作者
朱艳辉
刘璟
徐叶强
田海龙
马进
-
机构
湖南工业大学计算机与通信学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2016年第15期97-100,共4页
-
基金
国家自然科学基金(No.61170102)
国家社科基金资助项目(No.12BYY045)
湖南省教育厅重点项目(No.15A049)
-
文摘
针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果 F值分别提升了7.6%和8.7%。
-
关键词
中文分词
条件随机场
领域自适应
歧义消解
领域分词
逆向最大匹配算法
-
Keywords
Chinese word segmentation
Conditional Random Field(CRF)
domain adaption
ambiguity resolution
domain segmentation
reverse directional maximum match method
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双哈希结构的整词二分词典机制
被引量:3
- 10
-
-
作者
张贤坤
李亚南
田雪
-
机构
天津科技大学计算机科学与信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2014年第11期3956-3960,共5页
-
基金
天津市科技型中小企业创新资金基金项目(12ZXCXGX33500)
-
文摘
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。
-
关键词
中文分词
词典机制
尾字词典
哈希结构
逆向最大匹配算法
-
Keywords
Chinese word segmentation
dictionary mechanism
last word dictionary~ Hash structure
reverse maximum matching algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名远程教学资源整合及检索系统研究
- 11
-
-
作者
向俊
王静
何一辉
-
机构
广西广播电视大学教学资源与技术中心
-
出处
《广西广播电视大学学报》
2012年第3期41-45,共5页
-
基金
2011年度广西教育厅科研项目(201106LX864)
-
文摘
文章分析了不同信息检索方法的研究现状,并根据远程教学资源实际利用情况和电大现有的软、硬件技术条件,给出了适合于现阶段开放教学资源检索的模型和方法,实现了输入内容的自动提示功能,改进了基于标点符号特征将正向最大匹配算法和逆向最大匹配算法相结合的分词算法。实验过程推理表明该方法是有效的,并在实际应用中,能获得较好的检索结果。
-
关键词
教学资源
正向最大匹配算法
逆向最大匹配算法
信息检索
-
分类号
G434
[文化科学—教育技术学]
-
-
题名课程知识检索系统中检索器模块的实现
被引量:1
- 12
-
-
作者
薛醒思
-
机构
福建工程学院计算机与信息科学系
-
出处
《闽江学院学报》
2008年第5期74-77,共4页
-
文摘
提出了一个基于领域本体的课程知识检索系统,探讨了个性化检索技术在系统的检索器模块中的应用,并详细介绍了检索器模块中基于本体的逆向最大匹配分词算法(RMM)和分层遍历森林算法的实现,为课程知识检索系统进一步的开发工作奠定了基础.
-
关键词
课程知识检索系统
领域本体
逆向最大匹配分词算法
分层遍历森林算法
-
Keywords
course knowledge retrieval system
domain ontology
reverse directional maximum matchmethod
hierarchical traversal of forest method
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-