一种用于词性标注的相关投票融合策略被引量：6

Correlation Voting Fusion Strategy Used for Part of Speech Tagging

下载PDF

导出

摘要各种词性标注方法总是利用从某一侧面描述的语言学知识,当训练语料达到一定规模、训练模型完善到一定程度后,标注精度很难再有进一步的提高。本文在对TBED、DT、HMM和ME四种基于语料库的词性标注方法研究的基础上,提出了一种新的词性标注融合策略——相关投票法。从理论上分析了该方法的优越性,并与其他融合策略进行了对比实验。实验结果表明,应用融合策略可以更加全面地描述词性标注知识,从而更好地完成词性标注任务;在几种融合策略中,相关投票法是最优秀的,它使标注的平均错误率降低27.85%。 Part-of-speech （POS） tagging approaches always utilizes linguistic knowledge described from one perspective. Based on the research of four kinds of POS tagging methods, such as, TBED, DT, HMM and ME, we propose a novel data fusion strategy for POS tagging--- correlation voting method. The result of experiment shows that linguistic knowledge of POS tagging can be more roundly described by applying data fusion, and the correlative voting is better than other fusion methods for an average decrease of 27.85% in tagging error rate.

作者郭永辉吴保民王炳锡

机构地区解放军信息工程大学

出处《中文信息学报》 CSCD 北大核心 2007年第2期9-13,共5页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60372038)

关键词人工智能自然语言处理词性标注融合策略相关投票 artificial intelligence natural language processing part of speech tagging fusion strategy correlationvoting

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1张民,李生,赵铁军,张艳风.统计与规则并举的汉语词性自动标注算法[J].软件学报,1998,9(2):134-138. 被引量：15
2Eric Brill. A Corpus-Based Approach to Language Learning[D]. PhD Dissertation. University of Pennsylvania, 1993.
3James Hammerton, Miles Osborne, Susan Armstrong, et al. Introduction to Special Issue on Machine Learning Approaches to Shallow OParsing[J]. Journal of Machine Learning Research 2, 2002, 551-558.
4Eric Brill. Unsupervised Learning of Disambiguation Rules for Part of Speech. Natural Language [M]. Kluwer Academic Press, 1997.
5Helmut Schmid. Probabilistic Part-of-Speech Using Decision[A]. In: Proceedings of International Conference on New Methods in Language Processing[C].1994. 44-49.
6Thorsten Brants. TnT-A Statistical Part-of-Speech Tagger[A]. In: Proceedings of the 6th Applied Natural Language Processing Conference [C]. 2000.224-231.
7Adwait Ratnaparkhi. A Maximum Entropy Model for Part-Of-Speech Tagging[A]. In: Proceedings of Conference on Empirical Methods in Natural Language Processing[C]. 1996. 132-142.
8Chan P. K. and Stolfo S. J. A Comparative Evaluation of Voting and Meta-Learning of Partitioned Data[A].In: Proceedings of the 12th International Conference on Machine Learning[C]. 1995. 90-98.
9Mitchel P. Marcus. Building A large annotated corpus of English: the Penn Treebank [J]. Communicational linguistics, 1993, 19(2) : 313-330.

二级参考文献5

1Zhou Qiang，Chin Inf J，1996年，9卷，3期，1页
2Zhang Chi，1996年
3Zhou Ming，Proceedings of the NLPRS’95，1995年
4赵铁军，Chin Inf J，1994年，7卷，4期，52页
5Bai Shuanhu，硕士学位论文，1992年

共引文献14

1刘小可,王云兰.一个改进的基于最大熵原理的汉语词性标注系统[J].光盘技术,2007(6):17-18.
2胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
3张虎,郑家恒,刘江.汉语语料库词性标注自动校对方法研究[J].计算机应用,2005,25(1):17-19. 被引量：1
4张虎,郑家恒.基于分类的汉语语料库词性标注一致性检查[J].计算机工程,2008,34(8):90-92. 被引量：3
5段鹰,段文泽,易树平.相关对象组合匹配模型及解耦递阶智能搜索[J].科研管理,2009,30(1):22-27.
6王丽杰,车万翔,刘挺.基于SVMTool的中文词性标注[J].中文信息学报,2009,23(4):16-21. 被引量：17
7仲其智,姚建民.低频词的中文词性标注研究[J].计算机应用与软件,2011,28(3):182-185. 被引量：3
8付国宏,王晓龙.面向真实文本的汉语词法自动分析系统[J].高技术通讯,1999,9(12):6-10.
9王海峰,李生,赵铁军.BT863-II汉英机器翻译系统中的兼类处理方法[J].高技术通讯,2000,10(1):48-50.
10付国宏,王晓龙,姜守旭.一种启发式的汉语词性标注算法[J].计算机工程与设计,2000,21(5):61-64. 被引量：1

同被引文献74

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):58-65. 被引量：8
3梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
4周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
5崔雷.当年高被引论文的主题词链聚类分析及其在情报预测中的应用[J].情报学报,1995,14(5):368-373. 被引量：11
6白栓虎.汉语词切分及词性自动标注一体化方法[J].中文信息,1996(2):46-48. 被引量：2
7卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
8王鸿谟.面部色部定位法研究[J].山东中医杂志,2006,25(5):291-293. 被引量：16
9姜维,关毅,王晓龙.基于条件随机域的词性标注模型[J].计算机工程与应用,2006,42(21):13-16. 被引量：12
10洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56

引证文献6

1王丽杰,车万翔,刘挺.基于SVMTool的中文词性标注[J].中文信息学报,2009,23(4):16-21. 被引量：17
2张一哲,曲维光,刘金克,孙玉霞.基于分类器集成的兼类词消歧研究[J].南京师大学报（自然科学版）,2010,33(4):144-147. 被引量：2
3王鑫,魏国亮.基于融合的方法进行人脸光泽分析[J].信息技术,2014,38(10):20-22.
4王金水,唐郑熠,薛醒思.基于词性标注的文本聚类算法[J].福建工程学院学报,2015,13(4):372-375.
5赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：7
6谭咏梅,杨一枭,杨林,刘姝雯.基于LSTM和N-gram的ESL文章的语法错误自动纠正方法[J].中文信息学报,2018,32(6):19-27. 被引量：8

二级引证文献34

1王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：30
2于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
3谷川,田喜平.基于条件随机场的汉语词性标注方法研究[J].安阳师范学院学报,2010(5):6-8.
4朱颖.浅谈HMM在词性标注中的应用[J].电脑开发与应用,2011,24(3):52-55. 被引量：3
5刘挺,车万翔,李正华.语言技术平台[J].中文信息学报,2011,25(6):53-62. 被引量：53
6于江德,周宏宇,余正涛.汉语词性标注的特征工程[J].山东大学学报（工学版）,2011,41(6):12-17.
7冯敏萱,曲维光.英汉平行语料中双语兼类词消歧研究[J].山东大学学报（工学版）,2011,41(6):18-23.
8舒娟娟,刘玉玲.基于词性频率的中文文本零水印算法[J].计算机应用,2011,31(A02):103-105. 被引量：5
9高志华,贲可荣.基于多分类支持向量数据描述的噪声源识别研究[J].计算机科学,2012,39(11):233-236. 被引量：3
10夏静,柴玉梅,昝红英.基于统计和规则的常用词的兼类识别研究[J].计算机工程与设计,2013,34(2):654-659. 被引量：4

1冯少荣,肖文俊.基于样本选取的决策树改进算法[J].西南交通大学学报,2009,44(5):643-647. 被引量：18
2朱冉,崔文佳,王力.基于IEC 61850的充换电站关键设备建模方案[J].电力信息与通信技术,2013,11(10):16-19.
3杨守财.运用人为因素模型完善机务安全体系的相关建议[J].科技与生活,2012(2):204-204.
4张建其,刘漫丹,齐仲纪.基于混合特征多模板匹配的签名认证系统的设计与实现[J].计算机安全,2007(12):9-11.
5陈世媛,汤光明,高瞻瞻.基于权值分配的隐写分析算法[J].计算机应用研究,2016,33(11):3468-3471. 被引量：2
6柳玲,陈同孝,朱顺痣,曹晨,洪炜冬.SPAM数据挖掘Kim算法的隐写分析[J].哈尔滨理工大学学报,2013,18(4):31-36.
7宿子顺.简析移动应用程序中女性受众的产品设计[J].大众文艺（学术版）,2013(19):130-130.
8方文,林成城,陶华,丁德康.宝钢三高炉炉况判定模型的完善和优化[J].宝钢技术,2002(2):47-51. 被引量：4
9程克非,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94. 被引量：40
10王丽杰,车万翔,刘挺.基于SVMTool的中文词性标注[J].中文信息学报,2009,23(4):16-21. 被引量：17

中文信息学报

2007年第2期

浏览历史

内容加载中请稍等...

一种用于词性标注的相关投票融合策略被引量：6

参考文献9

二级参考文献5

共引文献14

同被引文献74

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

一种用于词性标注的相关投票融合策略 被引量：6

参考文献9

二级参考文献5

共引文献14

同被引文献74

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

一种用于词性标注的相关投票融合策略被引量：6