错误驱动学习在未登录词词性标注中的应用被引量：1

Application of error-driven learning approach for unknown word in POS tagging

下载PDF

导出

摘要词性兼类是自动词性标注过程的关键所在,特别是确定未登录词词性的正确率对整个标注效果有很大的影响。对兼类词排歧方法进行了研究,针对统计和规则两种方法各自的优点和局限,提出运用隐马尔科夫模型和错误驱动学习方法相结合自动标注方法,最后介绍了如何通过这种方法在只有一个词库的有限条件下进行词性标注和未登录词的词性猜测。实验结果表明,该方法能有效提高未登录词词性标注的正确率。 Ambiguity of POS is the key of automatic part-of-speech tagging procedure.Especially,the correction of tagging unknown word greatly affects automatic POS results.Firstly the ambiguity of POS is studied.After comparing the advantage and weakness of the statistical methods and the rule-governed methods,an automatic POS tagging method based on both HMM and TBL is presented.Finally,how to complete part-of-speech tagging and guess the part-of-speech of the unknown words with a limited lexicon is shown.And the tests prove that the method can raise the accuracy of unknown words tagging.

作者梁妍朱耀庭

机构地区南开大学信息技术科学学院

出处《计算机工程与设计》 CSCD 北大核心 2008年第6期1532-1534,共3页 Computer Engineering and Design

基金天津市科技攻关重点基金项目(04310731R) 天津师范大学青年基金项目(52LE69)

关键词词性标注未登录词基于转换的学习隐马尔科夫模型词性兼类 part-of-speech tagging unknown words transformation based learning HMM ambiguity of POS

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1魏欧,吴健,孙玉芳,sonata.iscas.ac.cn.基于统计的汉语词性标注方法的分析与改进[J].软件学报,2000,11(4):473-480. 被引量：31
2梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
3刘颖.用隐马尔柯夫模型对汉语进行切分和标注排歧[J].计算机工程与设计,2001,22(4):58-62. 被引量：11
4王素格,张永奎.基于搭配模式的汉语词性标注规则的获取方法[J].计算机工程与应用,2001,37(5):56-58. 被引量：3
5张孝飞,陈肇雄,黄河燕,蔡智.词性标注中生词处理算法研究[J].中文信息学报,2003,17(5):1-5. 被引量：13
6夏新松,肖建国.一种新的错误驱动学习方法在中文分词中的应用[J].计算机科学,2006,33(3):160-164. 被引量：9
7Zhou Y, Huang C,Gao J, et al.Transformation based Chinese en, tity detection and tracking[C].Proceedings of the 2nd International Joint Conference on Natural Language Processing,2005: 232 -237.
8赵永贞,刘挺,王志伟,陈惠鹏,邵艳秋.汉语文语转换系统中停顿指数的自动标注[J].中文信息学报,2004,18(5):48-55. 被引量：6

二级参考文献59

1李智强.韵律研究和韵律标音[J].语言文字应用,1998(1):107-111. 被引量：3
2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
3周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
4温锁林.中文文本兼类词的标注技术.中文信息算是国际会议论文集[M].北京,1998..
5刘开瑛郑家恒等.语料库司类自动标注算法研究.机器翻译研究进展[M].电子工业出版社,1992,8.378-385.
6王素格.汉语词性标注知识获取方法研究.山西大学硕士学位论文[M].,2000,6..
7刘开瑛等.语料库词类自动标注算法研究[A].陈肇雄.机器翻译研究进展[C].北京:电子工业出版社,1992.378—386.
8周强俞士汶.一种切分和词性标注相融合的汉语语料库多级处理方法[A].陈力为.计算语言学研究与应用[C].北京:北京语言学院出版社,1993.126—131.
9白栓虎黄昌宁夏莹.基于统计的汉语语料库词性自动标注的研究与实现[A].黄昌宁,夏莹.语言信息处理专论[C].北京:清华大学出版社,..
10[1]Bernard Merialdo.Tagging English Text with a Probabilistic Model[J].Computational Linguistics,1995,20:155-171.

共引文献75

1方浩,许鸿文,蔡益宇.一种基于语义关系改进的隐马尔可夫模型研究[J].通信技术,2008,41(5):157-159. 被引量：3
2陈文亮,朱靖波,吕学强.词性标注规则的获取和优化[J].术语标准化与信息技术,2004(2):23-26. 被引量：5
3张虎,郑家恒,刘江.汉语语料库词性标注自动校对方法研究[J].计算机应用,2005,25(1):17-19. 被引量：1
4方华,陆汝占,刘绍明.一个实现多种切分标注算法的系统[J].计算机工程,2004,30(24):122-124. 被引量：2
5梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
6温锐,朱巧明,李培峰.HMM和负反馈模型在词性标注中的应用[J].苏州大学学报（自然科学版）,2005,21(3):39-42. 被引量：5
7张孝飞,陈肇雄,黄河燕,王建德.基于锚点词对的双语词对齐算法[J].小型微型计算机系统,2006,27(2):330-334. 被引量：10
8韩东妹,林民.自动词性标注概述[J].内蒙古科技与经济,2006(01S):132-133.
9谈文蓉.汉英机器翻译系统中统计消歧的多步策略[J].西南民族大学学报（自然科学版）,2006,32(1):191-194.
10周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报（自然科学版）,2006,20(1):25-29. 被引量：16

同被引文献14

1梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
2Moore A W. Hidden Markov models[D].School of Computer Science Carnegie Mellon University,2004.
3Azimizadeh A,Arab MM,Quchani S R. Persian Part of Speech Tagger Based on Hidden Markov Model[A].USA,2008.
4Chang,Chaohuang,Chen Chengder. HMM-based part-of-speech tagging for Chinese corpora[A].Columbus,Ohio,1993.4047.
5Scott M Thede. Predicting part-of-speech information about unknown words using statistical methods[A].Montreal,Quebec,Canada,1998.
6Tseng Huihsin,Daniel Jurafsky,Christopher Manning. Morphological features help POS tagging of unknown words across language varieties[A].2005.
7Ralph Weischedel,Marie Meteer,Richard Schwartz. Coping with Ambiguity and Unknown Words through Probabilistic models[J].Com-putational Linguistic,1993,(02):359382.
8韩普,姜杰.HMM在自然语言处理领域中的应用研究[J].计算机技术与发展,2010,20(2):245-248. 被引量：15
9赵红丹,王希杰.基于隐马尔科夫模型的词性标注[J].安阳师范学院学报,2010(5):9-12. 被引量：2
10王敏,郑家恒.基于改进的隐马尔科夫模型的汉语词性标注[J].计算机应用,2006,26(S2):197-198. 被引量：10

引证文献1

1牛秀萍,马建芬.HMM词性标注中高频生词的处理[J].计算机应用与软件,2014,31(2):86-88.

1王达,张坤.基于支持向量机和转换的错误驱动学习方法的组块识别[J].南阳师范学院学报,2009,8(6):68-70.
2黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6
3夏新松,肖建国.一种新的错误驱动学习方法在中文分词中的应用[J].计算机科学,2006,33(3):160-164. 被引量：9
4杨宪泽.机器翻译的词处理研究[J].计算机工程与科学,2009,31(5):156-158. 被引量：12
5韩东妹,林民.自动词性标注概述[J].内蒙古科技与经济,2006(01S):132-133.
6张孝飞,陈肇雄,黄河燕,蔡智.词性标注中生词处理算法研究[J].中文信息学报,2003,17(5):1-5. 被引量：13
7谈文蓉,杨宪泽.MIS智能接口中统计排歧方法的研究与应用[J].西南民族大学学报（自然科学版）,2008,34(5):1035-1038.
8杨宪泽,肖明.混合式机器翻译中单词处理的一些技术探讨[J].科技通报,2011,27(1):101-104. 被引量：6
9林文广,李雪芳.有限条件下Photoshop上机考试方案研究[J].大庆师范学院学报,2010,30(3):13-14.
10肖毅.基于有限条件攻击的安全测试方法[J].通信技术,2011,44(2):81-84. 被引量：1

计算机工程与设计

2008年第6期

浏览历史

内容加载中请稍等...

错误驱动学习在未登录词词性标注中的应用被引量：1

参考文献8

二级参考文献59

共引文献75

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

错误驱动学习在未登录词词性标注中的应用 被引量：1

参考文献8

二级参考文献59

共引文献75

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

错误驱动学习在未登录词词性标注中的应用被引量：1