融合多粒度特征的低资源语言词性标注和依存分析联合模型被引量：2

A Joint Modelof POS Tagging and Dependency Parsing with Multi-Granularity Features for Low-resource Language

下载PDF

导出

摘要研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表示,利用不同的语言模型分别获得字符、子词以及词语层面的语义信息,将三种粒度的词嵌入进行拼接,达到丰富语义信息的目的,缓解由于标注数据稀缺导致的依存分析模型性能不佳的问题。进一步将词性标注和依存分析模型进行联合训练,使模型之间能相互共享知识,降低词性标注错误在依存分析任务上的线性传递。以泰语、越南语为研究对象,在宾州树库数据集上的试验表明,该文方法相比于基线模型的UAS、LAS、POS均有明显提升。 The part-of-speech tagging and dependency parsing of low-resource languages plays an important role in promoting low-resource language processing.For low-resource languages,we propose a word embedding representation that integrates multi-granularity features,and apply different language models at the character,sub-word and word level.Word embeddings in three granularities are then combined to enrich semantic information.The part-of-speech tagging and dependency parsing model are further jointly trained,sharing knowledge with each other to alleviate the pipeline error accumulation.Taking Thai and Vietnamese from the Penn Treebank data set,the proposed method significantly out-performs the baseline model according to UAS,LAS,and POS index.

作者陆杉毛存礼余正涛高盛祥黄于欣王振晗 LU Shan;MAO Cunli;YU Zhengtao;GAO Shengxiang;HUANG Yuxin;WANG Zhenhan(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学云南省人工智能重点实验室

出处《中文信息学报》 CSCD 北大核心 2023年第7期13-22,共10页 Journal of Chinese Information Processing

基金国家自然科学基金(62166023,U21B2027,61866019) 云南省重大科技专项计划项目(202103AA080015,202302AD080003,202002AD080001)。

关键词低资源语言词性标注依存分析多粒度特征联合模型 low-resource language part-of-speech tag dependency parsing multi-granularity feature joint model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献18

1杨鹏,谢磊,张艳宁.低资源语言的无监督语音关键词检测技术综述[J].中国图象图形学报,2015,20(2):211-218. 被引量：3
2扎西加,多拉.藏语依存树库构建的理论与方法探析[J].西藏大学学报（社会科学版）,2015,30(5):76-83. 被引量：13
3李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：27
4范俊军.中国的濒危语言保存和保护[J].暨南学报（哲学社会科学版）,2018,40(10):1-18. 被引量：16
5肖自辉.面向传统生态知识:当代民族语言调查的价值取向[J].广西民族大学学报（哲学社会科学版）,2018,40(5):199-204. 被引量：7
6李宇明.中国语言资源的理念与实践[J].语言战略研究,2019,4(3):16-28. 被引量：56
7才让卓玛,才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2):33-37. 被引量：7
8李超凡,马凯.基于注意力机制结合CNN-BiLSTM模型的电子病历文本分类[J].科学技术与工程,2022,22(6):2363-2370. 被引量：20
9于重重,吴佳佳,陈运兵,钱兆鹏.基于多头注意力机制的端到端土家语语音识别[J].计算机仿真,2022,39(3):258-262. 被引量：5
10杨秀璋,郭明镇,候红涛,袁杰,李晓峰,李坤琪,汪威,何世群,罗子江.融合情感词典的改进BiLSTM-CNN+Attention情感分类算法[J].科学技术与工程,2022,22(20):8761-8770. 被引量：15

引证文献2

1范俊军,沐华.我国低资源语言大规模数据建构及语言田野实践的数据转向[J].云南师范大学学报（哲学社会科学版）,2023,55(6):25-35. 被引量：3
2张英,拥措,斯曲卓嘎,拉毛杰,扎西永珍,尼玛扎西.基于注意力头数和词性融合的藏文预训练模型[J].科学技术与工程,2024,24(23):9957-9964.

二级引证文献3

1王伦.人工智能服务的科技情报信息收集与处理优化研究[J].科技资讯,2024,22(10):40-42.
2龙从军.我国民族语言数据和语言知识服务的理念及实现途径[J].暨南学报（哲学社会科学版）,2024,46(6):15-30.
3范俊军,刘贤娴.我国民族语言文献文本数字化识别问题——基于OCR及其工具[J].暨南学报（哲学社会科学版）,2024,46(6):31-45.

1陈云鹏,张紫慧.把握共享知识属性推动第三方测评高质量转型[J].质量与认证,2023(8):35-36.
2王凌霄,王弋波,朱礼军.基于词性自动机的关键短语抽取方法[J].中国科技资源导刊,2023,55(5):31-40.
3周迎.飞天集团:打造产业园区建设新范本[J].商界（评论）,2023(8):44-47.
4王则力,孝春成,王晓晖.光纤高温应变测量准确性评价研究[J].强度与环境,2023,50(5):60-64.
5周露,曲维光,魏庭新,周俊生,李斌,顾彦慧.汉语词语离合现象识别研究[J].中文信息学报,2023,37(6):25-32. 被引量：1
6陈奥博,章浩然,吴霖.基于双判别器的汉泰伪平行语料生成方法[J].现代电子技术,2023,46(20):81-85.
7陈禹橦,王珍.言词证据冲突情况下如何认定掩隐罪的客观行为和“犯罪所得”[J].中国检察官,2023(16):68-70.
8本刊编辑部(整理).宋京泽:“90后”扛起减灾救灾大旗[J].中国减灾,2023(18):31-31.
9富坤,孙明磊,郝玉涵,刘赢华.基于对抗训练的伪标签约束自编码器[J].计算机工程,2023,49(11):123-130. 被引量：1
10季薇,杨茗淇,李云,郑慧芬.基于掩蔽自监督语音特征提取的帕金森病检测方法[J].电子与信息学报,2023,45(10):3502-3510. 被引量：4

中文信息学报

2023年第7期

浏览历史

内容加载中请稍等...

融合多粒度特征的低资源语言词性标注和依存分析联合模型被引量：2

同被引文献18

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

融合多粒度特征的低资源语言词性标注和依存分析联合模型 被引量：2

同被引文献18

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

融合多粒度特征的低资源语言词性标注和依存分析联合模型被引量：2