基于错误驱动学习策略的藏语句法功能组块边界识别被引量：7

Tibetan Chunking Based on Error-Driven Learning Strategy

下载PDF

导出

摘要藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18 073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。 Tibetan chunking is aimed at identifying syntactic constituent in Tibetan sentences to facilitate further analysis of sentences. According to the unique characteristics o{ Tibetan, the paper puts forward an error-driven learning strategy to identify the chunk boundary based on the description system of Tibetan syntactic functional chunk. The specific idea is as follows： we recognize the chunk boundary using the Conditional Random Fields （CRFs） model at first. Then the recognition result is refined through Transformatiowbased Error-driven Learning （TBL） method and the CRFs error-driven method. The F values of both methods increase 1.65% and 8.36%, respectively. Finally we combine these two error-driven techniques. In the experiment of the Tibetan corpus which contains 18073 words, the precision, recall and F value achieves 94. 1% ,94.76% and 94.43%, respectively.

作者王天航史树敏龙从军黄河燕李琳

机构地区北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心中国社会科学院民族学与人类学研究所

出处《中文信息学报》 CSCD 北大核心 2014年第5期170-175,191,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61201352 61132009) 国家重点基础研究发展规划(973)(2013CB329303) 北京理工大学基础研究基金(20130742010)

关键词错误驱动学习藏语句法功能组块组块边界识别 CRFS TBL error-driven learning Tibetan syntactic functional chunk chunk boundary recognition CRFs TBL

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1Abney,Steven P.Parsing by Chunks[M].Springer Netherlands,1992.
2Ramshaw,Lance,Mitchell Marcus.Text Chunking using Transformation-Based Learning[C]Proceedings of the ACL Third Workshop on Very Large Corpora,1995:82-94.
3Tjong Kim Sang E F,Buchholz S.Introduction to the CoNLL-2000 Shared Task:Chunking[C]//Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning.Association for Computational Linguistics,2000(7):127-132.
4Pierce D,Cardie C.Limitations of co-training for Natural Language Learning from Large Datasets.[C]// Proceeding of the 2001 Conference on Empirical Methods in Natural Language Processing,Cornel University,Ithaca NY,2001:1-9.
5李珩,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2):1-7. 被引量：50
6李素建,刘群,杨志峰.基于最大熵模型的组块分析[J].计算机学报,2003,26(12):1722-1727. 被引量：58
7Tan Y M,Yao T S,Chen Q,et al.Applying Conditional Random Fields to Chinese Shallow Parsing.Proceedings of CICLing2-2005.Mexico City,Mexico,2005:167-176.
8周强,赵颖泽.汉语功能块自动分析[J].中文信息学报,2007,21(5):18-24. 被引量：13
9陈亿,周强,宇航.分层次的汉语功能块描述库构建分析[J].中文信息学报,2008,22(3):24-31. 被引量：8
10黄德根,于静.分布式策略与CRFs相结合识别汉语组块[J].中文信息学报,2009,23(1):16-22. 被引量：6

二级参考文献91

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2江荻.藏语拉萨话现在时的标记及功能[J].民族语文,1999(5):55-62. 被引量：6
3左思民.现代汉语中“体”的研究——兼及体研究的类型学意义[J].语文研究,1999(1):10-21. 被引量：21
4戴耀晶.《现代汉语时体系统研究》出版[J].汉语学习,1997(2):55-55. 被引量：6
5梅广.独龙语句尾词研究[J].语言研究,1996,16(1):153-177. 被引量：10
6石毓智.论现代汉语的“体”范畴[J].中国社会科学,1992(6):183-201. 被引量：109
7孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
8李珩,朱靖波,姚天顺.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展,2005,42(5):844-848. 被引量：18
9江荻,胡鸿雁.现代藏语形容词谓语的构造及识别方法(英文)[J].语言研究,2005,25(2):115-122. 被引量：3
10张春祥,李生,赵铁军.基于中心语块扩展的短语对齐[J].计算机研究与发展,2006,43(9):1658-1665. 被引量：3

共引文献143

1冯诗涵.平武白马语的体助词de^(31)[J].语言历史论丛,2022(2):88-100.
2潘家荣,潘奥,杜佳烜.示证研究的基本概念[J].南开语言学刊,2019(2):19-24.
3陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
4干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
5余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
6余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
7冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
8李跃进,赵晶,林鸿飞.基于Internet的军事演习信息抽取系统[J].计算机工程与应用,2006,42(14):214-218. 被引量：6
9刘贵全,曾宇斌.基于最大熵模型的汉语依存分析[J].计算机工程,2006,32(11):216-218. 被引量：2
10林煜明,李优.基于SVM的句子组块识别[J].山东大学学报（理学版）,2006,41(3):33-36.

同被引文献76

1屠可伟,李俊.句法分析前沿动态综述[J].中文信息学报,2020(7):30-41. 被引量：12
2扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
3江荻,胡鸿雁.现代藏语形容词谓语的构造及识别方法(英文)[J].语言研究,2005,25(2):115-122. 被引量：3
4LIN C.Libsvm---A libraty for supporter vector machines[OL].[2015-05-08].http://www.csie.ntu.edu.tw/-cjlin/.
5Liu B.Sentiment analysis and opinion mining[M].USA:Morgan&Claypool,2012:1-167.
6Guojon B.Text mining for opinion target detection[C]//Proceedings of the 2011 European Intelligence and Security Informatics Conference.Piscataway:IEEE Press,2011:322-326.
7Pak A,Paroubek P.Twitter as a corpus for sentiment analysis and opinion mining[C]//Proceedings of the 2010 International Conference on Language Resources and Evaluation.Paris:European Language Resources Association,2010:17-23.
8Somprasetspi G,Lalitrojwong P.Mining feature-opinion in online customer reviews for opinion summarization[J].Journal of Universal Computer Science,2010,16(6):938-955.
9徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：384
10才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70

引证文献7

1杜思奇,李红莲,吕学强.汉语组块分析在情感分类中的应用研究[J].计算机应用与软件,2016,33(10):167-171.
2汪书北,拥措,赵栋材.基于Android平台的藏语学习软件设计与实现[J].北京电子科技学院学报,2016,24(2):88-92. 被引量：5
3郝东亮,杨鸿武,张策,张帅,郭立钊,杨静波.面向汉语统计参数语音合成的标注生成方法[J].计算机工程与应用,2016,52(19):146-153. 被引量：1
4李琳,赵维纳,泽旺宽卓.基于词向量特征的藏语谓语动词短语识别模型[J].电子技术与软件工程,2019(4):242-243. 被引量：6
5柔特,色差甲,才让加.藏文句子语义块识别方法[J].中文信息学报,2019,33(6):42-49. 被引量：2
6尕藏扎西,冷本扎西,多拉.基于格序列的藏语句法成分标注数据集构建方法研究[J].高原科学研究,2023,7(4):95-105.
7龙从军,刘汇丹,周毛克.基于句法树的藏语最长名词短语识别[J].中文信息学报,2019,33(2):59-66. 被引量：4

二级引证文献17

1普布次仁,仁增多杰,巴桑杰拉,扎西塔决,白玛旦真.藏汉双语日常用语学习软件的设计与实现[J].信息与电脑,2020,32(20):87-89.
2黄成龙.2019年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2020,41(5):47-52.
3黄瑞章,靳文繁,陈艳平,秦永彬,郑庆华.基于Highway-BiLSTM网络的汉语谓语中心词识别研究[J].通信学报,2021,42(1):100-107. 被引量：4
4刘雪强.电力营销藏汉双语终端系统的应用[J].中国新通信,2021,23(4):100-101.
5索朗拉姆,群诺.藏文词向量技术研究综述[J].电脑知识与技术,2021,17(11):226-228. 被引量：1
6白玛旺加,次仁达吉,达娃次仁,拉姆卓嘎,群诺.基于Android平台的藏语文知识库APP的设计与实现[J].信息与电脑,2021,33(7):148-150. 被引量：1
7沈楠.空情态势报知训练器设计与实现[J].火力与指挥控制,2021,46(5):127-131.
8卓玛扎西,才让加,色差甲,班玛宝.基于组块分割的无监督藏文句法分析方法研究[J].计算机仿真,2022,39(5):278-282.
9周毛克,龙从军,赵小兵,李林霞.基于树库转换的藏语依存句法树库构建方法[J].中文信息学报,2022,36(7):77-85. 被引量：2
10龙从军,安波.中国少数民族语言文字信息处理的进展[J].暨南学报（哲学社会科学版）,2022,44(9):12-23. 被引量：8

1田卫东,李亚娟.基于CRF和错误驱动的中心词识别[J].计算机应用研究,2013,30(8):2345-2348. 被引量：3
2刘方舟,周游.用决策树指导TBL进行多音字消歧[J].计算机工程与应用,2011,47(12):137-140. 被引量：1
3王旗,马建芬.基于TBL的手写字体分段技术[J].电脑开发与应用,2011,24(6):53-55.
4于江德,樊孝忠,庞文博,余正涛.Semantic role labeling based on conditional random fields[J].Journal of Southeast University(English Edition),2007,23(3):361-364. 被引量：9
5黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6
6贺瑞芳,秦兵,潘越群,刘挺,李生.基于启发式错误驱动学习的中文时间表达式识别[J].高技术通讯,2008,18(12):1258-1262. 被引量：3
7董远,周涛,董乘宇,王海拉.中文语音合成系统中的一种两层韵律结构生成体系(英文)[J].自动化学报,2010,0(11):1569-1574. 被引量：2
8贺瑞芳,秦兵,刘挺,潘越群,李生.基于依存分析和错误驱动的中文时间表达式识别[J].中文信息学报,2007,21(5):36-40. 被引量：21
9赵伟,李丹.SVM与错误驱动学习相结合的中文人名识别[J].长春工业大学学报,2009,30(4):396-400. 被引量：3
10李波,张蕾.基于错误驱动学习和知网的中文人名识别[J].计算机工程,2012,38(12):179-181. 被引量：3

中文信息学报

2014年第5期

浏览历史

内容加载中请稍等...

基于错误驱动学习策略的藏语句法功能组块边界识别被引量：7

参考文献21

二级参考文献91

共引文献143

同被引文献76

引证文献7

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于错误驱动学习策略的藏语句法功能组块边界识别 被引量：7

参考文献21

二级参考文献91

共引文献143

同被引文献76

引证文献7

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于错误驱动学习策略的藏语句法功能组块边界识别被引量：7