基于动态规划的最小代价路径汉语自动分词被引量：5

Chinese Word Segmentation Using Minimal Cost Path Algorithm Based on Dynamic Programming

下载PDF

导出

摘要基于最长次长匹配的方法建立汉语切分路径有向图,将汉语自动分词转换为在有向图中选择正确的切分路径,其中有向图中的节点代价对应单词频度,而边代价对应所连接的两个单词的接续频度;运用改进后Dijkstra最小代价路径算法,求出有向图中路径代价最小的切分路径作为切分结果.在切分歧义的处理上采用分步过滤逐步解消的方法,并引入了基于未知词特征词驱动的机制,对未知词进行了前处理,减少了因未知词的出现而导致的切分错误.实验结果表明,该方法有效地提高了汉语分词的精确率和召回率. The Chinese word segmentation is transformed into a best segmentation path selecting problem in a directed graph based on the maximum and second-maximum matching method. Dijkstra＇s algorithm is modified to choose the minimum cost path from the directed graph, of which the node cost corresponds to the single-word frequency and the edge cost to the doublewords frequency. Word segmentation ambiguities are filtered and solved step by step. The unknown-word-characteristic-driven mechanism is adopted to handle the unknown word problem. The results show marked improvement in the efficiency of segmentation,and high accuracy rate and recall rate are guaranteed.

作者孙晓黄德根

机构地区大连理工大学计算机科学与工程系

出处《小型微型计算机系统》 CSCD 北大核心 2006年第3期516-519,共4页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(60373095)资助.

关键词汉语自动分词最长次长匹配最小代价路径切分歧义消解未知词特征词 chinese word segmentation maximum and second-maximum matching minimum cost path ambiguity partition unknown words characteristic

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Sproat R,Shih C.L,et al.A stochastic finite-state word segmentation algorithm for Chinese[J].Computational Linguistics,1996,22(3):377-404.
2Lai B.Y,Sun M.S,et al.Chinese word segmentation and part-of-speechtagging in one step[C].In:Proceedings of International Conference:1997 Research on Computational Linguistics,1997,229-236.Taipei.
3Fan,C.K,Tsai W.H.Automatic word identification in Chinese sentences by the relaxation technique[J].Computer Processing of Chinese and Oriental Languages 1988.4(1):33-56.
4Palmer,D.D.A trainable rule-based Algorithm for word segmentation[C].In:Proceedings of the 35th Annual Meeting of ACL and 8th Conference of the European Chapter of ACL.Madrid,1997.
5Richard Sproat,Thomas Emerson.The First International Chinese Word Segmentation Bakeoff[C].First SIGHAN Workshop attached with the ACL2003,2003.(7),133-143.
6黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量：14
7黄德根朱和合杨元生.基于单词与双词可信度的汉语分词[J].计算机研究与发展,2001,(7):132-135.
8梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
9黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
10黄昌宁.消歧需要词例知识[C]..自然语言处理学术研讨会[C].,2003:7..

二级参考文献64

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
3黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
6孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
7徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
8孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
9黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
10孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66

共引文献245

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
3张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
4刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
5郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
6王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
7王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
8黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
9洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
10于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1

同被引文献67

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
4苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
6孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
8龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
9张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
10张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8

引证文献5

1孙铁利,刘延吉.中文分词技术的研究现状与困难[J].信息技术,2009,33(7):187-189. 被引量：39
2张培颖.运用有向图进行中文分词研究[J].计算机工程与应用,2009,45(22):123-125.
3奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
4汪文妃,徐豪杰,杨文珍,吴新丽.中文分词算法研究综述[J].成组技术与生产现代化,2018,35(3):1-8. 被引量：10
5刘逸逸,蒋赵睿,周德高.基于知识图谱的能源行业物资领域的专业语义库的设计和实现[J].电工技术,2023(10):17-21.

二级引证文献150

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：41
2秦帅波.中医知识智能诊断系统的研究[J].计算机产品与流通,2020,9(1):142-142.
3杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
4游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59.
5曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
6董妍汝.中文分词技术在搜索引擎中的应用[J].办公自动化（综合月刊）,2010(2):44-45. 被引量：3
7何友全,徐小乐,徐澄,栾红玉,唐华姣.搜索引擎用户接口设计[J].重庆理工大学学报（自然科学）,2010,24(9):63-68. 被引量：2
8王成平.彝文自动分词系统的设计与实现[J].中国西部科技,2012,11(3):44-45. 被引量：1
9王成平.彝文信息处理自动分词技术的研究现状与难点分析[J].电脑知识与技术,2012,8(2):944-946. 被引量：4
10张丽媛.1984—2011年中国自动分词研究综述[J].农业图书情报学刊,2012,24(6):140-143.

1张锋,樊孝忠.基于最大熵模型的交集型切分歧义消解[J].北京理工大学学报,2005,25(7):590-593. 被引量：6
2刘伟科,张晓庆.MPLS网络中QoS路由算法研究[J].微计算机应用,2008,29(8):1-6. 被引量：3
3俞卫华,薛冰冰,范伊红.基于CAN的资源定位模型的改进策略[J].计算机工程与设计,2010,31(20):4400-4403.
4王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006,25(2):118-121. 被引量：1
5姚正斌,丁晓青,刘长松.基于统计的动态规划算法在联机汉字切分中的应用[J].计算机应用研究,2011,28(7):2592-2594. 被引量：3
6黄璐,谷军,李然,李向军.基于改进TF·IDF和支持向量机的多类别文本分类[J].科技信息,2013(9):162-162.
7汪西莉,蔺洪帅.最小代价路径标签传播算法[J].计算机学报,2016,39(7):1407-1418. 被引量：8
8盛惠娟,邓振生,欧阳丽蓉.基于最小代价路径的血管中心线提取[J].计算机工程与应用,2015,51(2):156-160. 被引量：1
9李萍.试论现代汉语词语的切分技术[J].中国新技术新产品,2010(24):232-232.
10阮洁,钟宝荣.Dijkstra算法在物流配送运输中的最短路径优化研究[J].计算机光盘软件与应用,2013,16(15):42-42. 被引量：3

小型微型计算机系统

2006年第3期

浏览历史

内容加载中请稍等...

基于动态规划的最小代价路径汉语自动分词被引量：5

参考文献12

二级参考文献64

共引文献245

同被引文献67

引证文献5

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

基于动态规划的最小代价路径汉语自动分词 被引量：5

参考文献12

二级参考文献64

共引文献245

同被引文献67

引证文献5

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

基于动态规划的最小代价路径汉语自动分词被引量：5