基于半监督的汉缅双语词典构建方法

Semi-supervised Chinese-Burmese Bilingual Dictionary Construction

下载PDF

导出

摘要汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低。研究表明,可比语料中相似词语往往具有相似的上下文,为此,该文提出了一种基于半监督的汉缅双语词典构建方法,通过利用预训练语言模型来构建双语词汇的上下文特征向量,对基于可比语料和小规模种子词典的迭代自学习方法得到的汉缅双语词汇进行语义增强。实验结果表明,该文提出的方法相较于基线方法有明显的性能提升。 Chinese-Burmese bilingual dictionary is an important data resource for research on machine translation and cross-language retrieval, etc. At present, the iterative self-learning method based on small-scale seed dictionary has achieved good results in extracting bilingual dictionaries from parallel corpus. However, for low-resource languages like Chinese-Burmese bilingual dictionary extraction task, due to the lack of bilingual parallel resources, the method based on iterative self-learning can not get effective bilingual word vector representation, resulting in the low accuracy of bilingual dictionary extraction model. Recent studies suggest that similar words in comparable corpora often have similar contexts. Therefore, this paper proposes a semi-supervised method for constructing Chinese-Burmese bilingual dictionary. By using the pre training language model, the context feature vector of bilingual vocabulary is constructed. The Chinese-Burmese bilingual vocabulary obtained by the iterative self-learning method of comparable corpus and small-scale seed dictionary is semantically enhanced. The experimental results show that the proposed method has a significant improvement comparing with the baseline method.

作者毛存礼陆杉王红斌余正涛吴霞王振晗 MAO Cunli;LU Shan;WANG Hongbin;YU Zhengtao;WU Xia;WANG Zhenhan(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunan 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming,Yunan 650500,China)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学云南省人工智能重点实验室

出处《中文信息学报》 CSCD 北大核心 2021年第7期47-53,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61732005,61662041,61761026,61866019,61972186) 云南省应用基础研究计划重点项目(2019FA023) 云南省中青年学术和技术带头人后备人才项目(2019HB006)。

关键词汉缅双语种子词典迭代自学习预训练语言模型上下文特征半监督 Chinese-Burmese bilingual seed dictionary iterative self-learning pre-trained language model contextual feature semi-supervised

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张檬,刘洋,孙茂松.基于非平行语料的双语词典构建[J].中国科学：信息科学,2018,48(5):564-573. 被引量：5

共引文献4

1陈亚豪,张亚飞,余正涛,文永华,朱俊国.基于英语枢轴的汉-越双语词典构建方法[J].小型微型计算机系统,2020,41(11):2303-2307. 被引量：1
2王星,单力秋,侯磊,于济凡,陈吉,陶明阳.基于百科语料的中英文双语词典提取[J].中文信息学报,2021,35(1):25-33. 被引量：2
3刘高军,刘思睿,鲁朝阳,王昊.知识引导的跨语言义原预测[J].数字技术与应用,2022,40(5):1-4.
4吴霖,陈杭英,李亚,余正涛,杨晓霞,王振晗.抑制无监督神经机器翻译模型退化的简单方法[J].中文信息学报,2022,36(9):57-66. 被引量：1

1王晓光,夏凌颖,段青玉.学术阅读智慧化:学术论文在线阅读系统优化研究[J].出版广角,2021(13):16-20. 被引量：7
2满志博,毛存礼,余正涛,李训宇,高盛祥,朱俊国.基于多语言联合训练的汉-英-缅神经机器翻译方法[J].清华大学学报（自然科学版）,2021,61(9):927-935. 被引量：13
3王晶,赵彩.基于平行语料库的神经机器英语翻译方法研究[J].自动化与仪器仪表,2021(8):5-8. 被引量：1
4琚生根,李天宁,孙界平.基于关联记忆网络的中文细粒度命名实体识别[J].软件学报,2021,32(8):2545-2556. 被引量：12
5刘喜凯,林鸿飞,徐博,杨亮,任玉琪.基于检索结果融合机制的对话生成模型[J].中文信息学报,2021,35(7):134-142.
6王炳乾,宿绍勋,梁天新.基于BERT的多层标签指针网络事件抽取模型--2020语言与智能技术竞赛事件抽取任务系统报告[J].中文信息学报,2021,35(7):81-88. 被引量：10
7崔志远,赵尔平,雒伟群,王伟,孙浩.面向专业领域的多头注意力中文分词模型--以西藏畜牧业为例[J].中文信息学报,2021,35(7):72-80. 被引量：2
8曲琳琳.查询翻译方法研究——以汉英跨语言信息检索为例[J].情报科学,2021,39(8):132-138. 被引量：3
9吴雪华,毛进,陈思菁,谢豪,李纲.突发事件应急行动支撑信息的自动识别与分类研究[J].情报学报,2021,40(8):817-830. 被引量：15

中文信息学报

2021年第7期

浏览历史

内容加载中请稍等...

基于半监督的汉缅双语词典构建方法

参考文献1

共引文献4

相关作者

相关机构

相关主题

浏览历史