中文分词中组合型切分歧义的消解研究被引量：1

Research on combinational ambiguity strings in Chinese word segmentation

下载PDF

导出

摘要针对中文自动分词中组合型歧义消解难的问题,提出了一种新的切分算法来对组合型歧义字段进行消歧。该算法首先自动从训练语料中提取歧义字段的上下文信息来建立规则库,然后利用C-SVM模型结合规则对组合型歧义字段进行歧义消解。最后以1998年1月《人民日报》语料中出现的组合型歧义字段进行训练和测试,实验显示消歧的平均准确率达89.33%。 Combinational ambiguity is one of the most difficult problems in Chinese word segmentation.The paper discusses a new segmentation algorithm to solve the combinational ambiguity.The algorithm automatically extracts contextual information of the combinational ambiguity to establish rules,then uses the C-SVM model and these rules to solve the combinational ambiguity.The People Daily corpus of January 1998 is used in training and testing,and the average accuracy is 89.33%.

作者尤慧丽晏立杨晓东

机构地区江苏大学计算机科学与通信工程学院

出处《计算机工程与应用》 CSCD 北大核心 2011年第31期125-127,134,共4页 Computer Engineering and Applications

关键词中文自动分词组合型歧义上下文信息 C-支持向量机 Chinese word segmentation combinational ambiguity contextual information C-Support Vector Machine（C-SVM）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1秦颖,王小捷,张素香.汉语分词中组合歧义字段的研究[J].中文信息学报,2007,21(1):3-8. 被引量：11
2郑家恒．多义型歧义字段切分研究[M]．北京：清华大学出版社，1999：54．
3冯素琴,陈惠明.基于语境信息的汉语组合型歧义消歧方法[J].中文信息学报,2007,21(6):13-16. 被引量：7
4张严虎,潘璐璐,彭子平,张靖波,于中华.基于规则挖掘和Nave Bayes方法的组合型歧义字段切分[J].计算机应用,2008,28(7):1686-1688. 被引量：5
5李蓉.基于支持向量机的汉语歧义切分算法[J].计算机仿真,2009,26(7):354-357. 被引量：2
6Vapnik V.An overview of statistical learning theory[J].JEEE Trans Neural Networks, 1999,10(5).
7阎满富.求解分类问题的支持向量机方法应用与研究[D].北京:中国农业大学,2004.
8曲维光,吉根林,穗志方,周俊生.基于语境信息的组合型分词歧义消解方法[J].计算机工程,2006,32(17):74-76. 被引量：10
9肖云,孙茂松,邹嘉彦.利用上下文信息解决汉语自动分词中的组合型歧义[J].计算机工程与应用,2001,37(19):87-89. 被引量：24

二级参考文献36

1梅家驹,竺一鸣,高蕴琦,殷鸿翔.编纂汉语类义词典的尝试——《同义词词林》简介[J].辞书研究,1983(1):133-138. 被引量：15
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
4曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：18
5王彩荣,王凯丽,黄玉基.歧义字段的归类及切分算法[J].微处理机,2005,26(3):33-35. 被引量：2
6曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
7曲维光,吉根林,穗志方,周俊生.基于语境信息的组合型分词歧义消解方法[J].计算机工程,2006,32(17):74-76. 被引量：10
8冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
9孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
10梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.

共引文献39

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
3刘江,郑家恒,张虎.中文文本语料库分词一致性检验技术的初探[J].计算机应用研究,2005,22(9):52-54. 被引量：10
4代建英,何中市.基于词性信息的汉语时间语词消歧算法[J].重庆大学学报（自然科学版）,2005,28(9):53-56.
5侯济恭.公路收费站远程监控与冲关稽查系统[J].计算机系统应用,2006,15(5):10-14. 被引量：2
6张培颖,李村合.一种改进的上下文相关的歧义字段切分算法[J].计算机系统应用,2006,15(5):46-48. 被引量：6
7王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006,25(2):118-121. 被引量：1
8曲维光,吉根林,穗志方,周俊生.基于语境信息的组合型分词歧义消解方法[J].计算机工程,2006,32(17):74-76. 被引量：10
9冯素琴,陈惠明.利用上下文信息解决汉语组合型歧义[J].电脑开发与应用,2007,20(1):23-25. 被引量：1
10秦颖,王小捷,张素香.汉语分词中组合歧义字段的研究[J].中文信息学报,2007,21(1):3-8. 被引量：11

同被引文献11

1丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26
2王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41
3袁鼎荣,李新友,邵延振.用于中文分词的组合型歧义消解算法[J].计算机应用与软件,2011,28(6):57-58. 被引量：5
4闻玉彪,贾时银,邓世昆,李远方.一种改进的最大匹配中文分词算法[J].计算机技术与发展,2011,21(10):92-94. 被引量：16
5李广一,王厚峰.基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):29-34. 被引量：17
6韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
7黄鹏,张姝,陈玉华,文斌.一种基于无监督学习的交集型歧义处理改进方法[J].云南师范大学学报（自然科学版）,2015,35(6):45-49. 被引量：1
8杜丽萍,李晓戈,于根,刘春丽,刘睿.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报（自然科学版）,2016,52(1):35-40. 被引量：46
9彭琦,朱新华,陈意山.一种基于词频歧义消解的通用中文分词法[J].广西师范大学学报（自然科学版）,2016,34(1):59-65. 被引量：4
10邱天宇,申富饶,赵金熙.自组织增量学习神经网络综述[J].软件学报,2016,27(9):2230-2247. 被引量：28

引证文献1

1甘蓉.中文分词交叉型歧义消解算法[J].西华大学学报（自然科学版）,2018,37(6):32-36. 被引量：2

二级引证文献2

1冯与诘.词云生成系统的构建[J].通讯世界,2019,26(3):190-192. 被引量：11
2睢贵芳.试论最大匹配算法在校园网信息提取中的应用[J].电子制作,2019,27(10):92-94.

1袁鼎荣,李新友,邵延振.用于中文分词的组合型歧义消解算法[J].计算机应用与软件,2011,28(6):57-58. 被引量：5
2冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
3刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2
4冯素琴,陈惠明.基于语境信息的汉语组合型歧义消歧方法[J].中文信息学报,2007,21(6):13-16. 被引量：7
5邓凡,鱼滨.基于语义计算的中文歧义字段消歧算法[J].计算机技术与发展,2008,18(6):107-110. 被引量：1
6张培颖,李村合.一种改进的上下文相关的歧义字段切分算法[J].计算机系统应用,2006,15(5):46-48. 被引量：6
7魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(30):190-192. 被引量：6
8冯素琴,陈惠明.利用上下文信息解决汉语组合型歧义[J].电脑开发与应用,2007,20(1):23-25. 被引量：1
9冯素琴,陈惠明.一种基于搭配信息的汉语组合型消歧方法[J].山西大学学报（自然科学版）,2008,31(2):173-176.
10范荣.用融和丰富字特征的不等式平滑最大熵模型消解组合型歧义[J].电脑编程技巧与维护,2011(2):11-13.

计算机工程与应用

2011年第31期

浏览历史

内容加载中请稍等...

中文分词中组合型切分歧义的消解研究被引量：1

参考文献9

二级参考文献36

共引文献39

同被引文献11

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文分词中组合型切分歧义的消解研究 被引量：1

参考文献9

二级参考文献36

共引文献39

同被引文献11

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文分词中组合型切分歧义的消解研究被引量：1