中文分词中的正向增字最大匹配算法研究被引量：7

Study on forward increasing maximum matching algorithm for Chinese word segmentation

下载PDF

导出

摘要针对正向最大匹配算法的长词丢失、匹配次数较多、歧义字段处理的准确率较低等问题,基于Trie树词典提出了3种正向增字最大匹配算法,分别使用逐词扫描、尾部折半扫描和尾部减一扫描这3种扫描方式采集歧义字段,并建立了一套歧义处理方法。实验结果表明,该3种算法在分词速度和准确率上均有显著提高,错误率降低到了原算法的三分之一以下。当文本规模大于200 MB时,3种正向增字最大匹配算法的分词速度均比原最大匹配算法提高30%以上。 As the forward maximum matching algorithm might lead to the longer words cannot be segmented correctly and be matched repeatedly, besides the accuracy of segmentation for ambiguous phrases of overlap type is low, it proposes three forward increasing maximum matching algorithms based on Trie-tree,respectively using word matching method, half-minus tail matching method and one-minus tail matching method to capture ambiguous phrase, and establish a set of ambiguity.Experimental results show that the segmentation algorithms in speed and accuracy has improved significantly, error rate is reduced to one-third or less of the original algorithm. When the text size is greater than 200 MB, the speed of three algorithms is increased by 30% compared with the original algorithm.

作者戴上静石春吴刚

机构地区中国科学技术大学自动化系工业自动化研究所

出处《微型机与应用》 2014年第17期15-18,共4页 Microcomputer & Its Applications

关键词中文分词 TRIE树逐词扫描正向增字匹配 Chinese word segmentation Trie-tree word matching algorithm forward increasing maximum matching algorithm

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1周程远,朱敏,杨云.基于词典的中文分词算法研究[J].计算机与数字工程,2009,37(3):68-71. 被引量：22
2王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41
3郭辉,苏中义,王文,崔骏.一种改进的MM分词算法[J].微型电脑应用,2002,18(1):13-15. 被引量：39
4杨宪泽.机器翻译的词处理研究[J].计算机工程与科学,2009,31(5):156-158. 被引量：12
5王惠仙,龙华.基于改进的正向最大匹配中文分词算法研究[J].贵州大学学报（自然科学版）,2011,28(5):112-115. 被引量：11
6刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
7闫引堂,周晓强.交集型歧义字段切分方法研究[J].情报学报,2000,19(6):637-643. 被引量：22
8翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：41

二级参考文献45

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
3金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
4杨宪泽.基于规则的高效索引算法和排序算法[J].中文信息学报,1993,7(2):67-72. 被引量：13
5曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
6杨宪泽,雷开彬,吴守宪,张上游,宁爱华.一种句型转换和近似机器翻译方法及算法[J].计算机工程与科学,2005,27(11):66-68. 被引量：7
7骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
8蒋斌,杨超,赵欢.基于二字词位图表的汉语自动分词词典机制[J].湖南大学学报（自然科学版）,2006,33(1):121-123. 被引量：3
9吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
10肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16

共引文献177

1吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9
2孙宝刚,肖灵.计算机与数据库技术在舰船建造过程的节本与工时分析应用[J].舰船科学技术,2019,0(20):217-219. 被引量：2
3刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
4谢新吾.黄跃佳:北大失业生的三次跳跃[J].职业圈,2005(11):30-31.
5普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
6马绍龙,刘海砚.基于文档集的文本挖掘模型研究[J].测绘与空间地理信息,2013,36(5):48-50. 被引量：1
7丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
8曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
9张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
10吴启德,吕强.一个比较不同中文分词法的软件[J].苏州大学学报（工科版）,2004,24(6):29-33.

同被引文献100

1侯敏,孙建军.汉语自动分词中的歧义问题[J].语言文字应用,1996(1):68-72. 被引量：8
2孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：54
3郑逢斌,付征叶,乔保军,毋琳.HENU汉语自动分词系统中歧义字段消除算法[J].河南大学学报（自然科学版）,2004,34(4):49-52. 被引量：5
4张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
5陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
6刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
7季晓燕,周敏.全球基础地理底图数据库建设中对地名数据处理技术的探讨[J].测绘通报,2006(7):45-48. 被引量：10
8王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
9董立岩,苑森淼,刘光远,贾书洪.基于贝叶斯分类器的图像分类[J].吉林大学学报（理学版）,2007,45(2):249-253. 被引量：30
10张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量：22

引证文献7

1陈硕,赵栋材,周欢欢.基于匹配算法的藏文自动分词[J].电子技术与软件工程,2016(1):169-170. 被引量：2
2江华丽.中文分词算法研究与分析[J].物联网技术,2016,6(1):87-89. 被引量：9
3王生生,玄雪花.基于定性空间推理的中文文本空间关系识别[J].吉林大学学报（理学版）,2016,54(3):529-534. 被引量：2
4赵云鹏,刘新贵,宋华标,吴铮,马绍龙.一种俄语地名专名快速音译方法[J].测绘与空间地理信息,2016,39(6):47-49. 被引量：7
5郭丙华,俞亚堃,李中华.基于词语搭配关系的一种中文分词歧义性消除方法[J].计算机应用与软件,2016,33(10):94-97. 被引量：3
6曹思源,马海云.领域知识组织理论基础及方法分类简述[J].情报资料工作,2021,42(5):14-22. 被引量：4
7乔晶,李鹤元.一种海图英语地名机器翻译方法[J].海洋测绘,2022,42(5):73-77. 被引量：2

二级引证文献29

1刘昆.机器学习算法在文本信息挖掘中的应用[J].网络安全技术与应用,2016(11):77-77. 被引量：3
2王旭阳,姜喜秋.特定领域概念属性关系抽取方法研究[J].吉林大学学报（信息科学版）,2017,35(4):430-437. 被引量：1
3张海腾,翟洁,冷春霞.电子作业相似性检测技术的研究与实现[J].电子设计工程,2017,25(19):43-45. 被引量：2
4常卫东,刘完芳.网络舆情中的大数据分析方法研究[J].求知导刊,2017(28):60-61.
5拉巴顿珠,欧珠,祖漪清,裴春宝.藏语同形异音词的消歧方法研究[J].中文信息学报,2018,32(7):58-66. 被引量：3
6李健龙,王盼卿,韩琪宇.面向军事领域的中文分词技术研究[J].计算机与现代化,2018(11):115-118. 被引量：2
7冯俐.中文分词技术综述[J].现代计算机,2018,24(23):17-20. 被引量：10
8刘鲲鹏,盛妍,何薇,宫立华.基于大数据算法的电话号码与客户编号对应关系的识别研究与实现[J].计算机应用与软件,2019,36(3):301-307. 被引量：2
9毛曦,颜闻,马维军,殷红梅.注意力机制的英语地名机器翻译技术[J].测绘科学,2019,44(6):296-300. 被引量：6
10刘超慧,陶浩武,邢丹阳,李宇根.基于富媒体的在线学习平台的设计与研究[J].电脑知识与技术,2019,15(5X):176-178. 被引量：6

1刘正国.FoxPro备注字段处理命令及使用技巧[J].软件开发与应用,1996(2):41-46.
2蔡伯峰,王书杰.基于Web的课程授课计划管理系统[J].泰州职业技术学院学报,2005,5(3):8-10. 被引量：1
3徐敬淼.报表打印中“0.00”字段的空白处理[J].新浪潮,1993(1):54-54.
4张硕.用FoxPro通用字段处理多媒体信息[J].扬州教育学院学报,1999,17(4):62-64.
5杨建华,王俊峰,谢高岗.OSPFv3协议一致性测试系统设计与实现[J].计算机应用,2003,23(7):18-20. 被引量：4
6熊辉,刘彦峰,郭大庆.分布式异构数据库迁移系统的设计与实现[J].计算机工程,2008,34(4):57-59. 被引量：15
7林民.用FoxBASE+实现基于数据库的窗口编辑器[J].计算机系统应用,1996,5(4):43-45.
8杨清艳.Geo Media到Arc GIS的数据转换方法[J].油气田地面工程,2014,33(8):96-97.
9王广正,王喜凤.基于知网语义相关度计算的词义消歧方法[J].安徽工业大学学报（自然科学版）,2008,25(1):71-75. 被引量：10
10康海燕,刘文华,庄祺彦.受限领域智能问答系统的研究与实践(英文)[J].西华大学学报（自然科学版）,2008,27(2):37-41. 被引量：1

微型机与应用

2014年第17期

浏览历史

内容加载中请稍等...

中文分词中的正向增字最大匹配算法研究被引量：7

参考文献8

二级参考文献45

共引文献177

同被引文献100

引证文献7

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

中文分词中的正向增字最大匹配算法研究 被引量：7

参考文献8

二级参考文献45

共引文献177

同被引文献100

引证文献7

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

中文分词中的正向增字最大匹配算法研究被引量：7